发生了什么

开发者 Subhadip Mitra 发布了一个完全用 Triton 编写的融合混合专家(MoE)调度内核,将前向传播的启动次数从 24+ 次减少到 5 次。在 A100 上运行 Mixtral-8x7B 时,该内核比 PyTorch 基准快 5.8 倍,且在批次规模 128 时比斯坦福的 Megablocks 快 24%。该内核融合了门控和上投影,使两个 GEMM 共享来自 L2 缓存的同一输入分块,并在寄存器中计算 SiLU 激活,每次前向传播节省约 470MB 内存流量。在批次规模 512 及以上时,Megablocks 的手工调优块稀疏矩阵乘法重新占据优势。同一段代码无需修改即可在 AMD MI300X 上运行,并通过所有 162 项测试。

为何重要

大多数生产环境推理服务运行在 32–128 个 token 的批次规模,这正是该内核的优势所在。独立开发者和中小企业在部署 Mixtral-8x7B、DeepSeek-V3 或 Qwen2-MoE 时,可直接集成此内核,立即降低每个 token 的 GPU 成本,无需等待上游框架更新。纯 Triton 实现意味着无需 CUDA 特定依赖,相比 Megablocks 中的手写 CUDA 内核降低了使用门槛。

  • 在 A100 上,批次规模 128 时比 PyTorch 快 5.8 倍
  • 在相同批次规模下比 Megablocks 快 24%
  • 支持 Mixtral-8x7B、DeepSeek-V3(256 个专家)和 Qwen2-MoE
  • 无需代码修改即可兼容 AMD MI300X

亚太视角

基于 DeepSeek-V3 或 Qwen2-MoE 开发的中国及东南亚开发者拥有直接降低推理成本的路径。DeepSeek-V3 使用了 256 个专家,该配置已在此处明确测试并确认可用。在受出口限制影响而普遍使用 MI300X 等效硬件(常见于中国数据中心)的国内云提供商上运行自托管推理的团队,将从 AMD 兼容性中受益。完整报告中的屋顶线分析为根据特定硬件内存带宽比率调优内核提供了框架,这对于部署在东南亚云提供商普遍使用的非 A100 GPU 集群时尤为重要。

本周行动项

克隆 github.com/bassrehab/triton-kernels,使用提供的基准测试脚本针对您当前的 Mixtral 或 Qwen2-MoE 服务设置(在实际生产批次规模下)运行测试,并在决定集成前比较延迟数据。