纯 Triton MoE 内核在 512 以下批次规模中超越 Megablocks 运行 Mixtral

发生了什么

开发者 Subhadip Mitra 发布了一个完全用 Triton 编写的融合混合专家（MoE）调度内核，将前向传播的启动次数从 24+ 次减少到 5 次。在 A100 上运行 Mixtral-8x7B 时，该内核比 PyTorch 基准快 5.8 倍，且在批次规模 128 时比斯坦福的 Megablocks 快 24%。该内核融合了门控和上投影，使两个 GEMM 共享来自 L2 缓存的同一输入分块，并在寄存器中计算 SiLU 激活，每次前向传播节省约 470MB 内存流量。在批次规模 512 及以上时，Megablocks 的手工调优块稀疏矩阵乘法重新占据优势。同一段代码无需修改即可在 AMD MI300X 上运行，并通过所有 162 项测试。

为何重要

大多数生产环境推理服务运行在 32–128 个 token 的批次规模，这正是该内核的优势所在。独立开发者和中小企业在部署 Mixtral-8x7B、DeepSeek-V3 或 Qwen2-MoE 时，可直接集成此内核，立即降低每个 token 的 GPU 成本，无需等待上游框架更新。纯 Triton 实现意味着无需 CUDA 特定依赖，相比 Megablocks 中的手写 CUDA 内核降低了使用门槛。

在 A100 上，批次规模 128 时比 PyTorch 快 5.8 倍
在相同批次规模下比 Megablocks 快 24%
支持 Mixtral-8x7B、DeepSeek-V3（256 个专家）和 Qwen2-MoE
无需代码修改即可兼容 AMD MI300X

亚太视角

基于 DeepSeek-V3 或 Qwen2-MoE 开发的中国及东南亚开发者拥有直接降低推理成本的路径。DeepSeek-V3 使用了 256 个专家，该配置已在此处明确测试并确认可用。在受出口限制影响而普遍使用 MI300X 等效硬件（常见于中国数据中心）的国内云提供商上运行自托管推理的团队，将从 AMD 兼容性中受益。完整报告中的屋顶线分析为根据特定硬件内存带宽比率调优内核提供了框架，这对于部署在东南亚云提供商普遍使用的非 A100 GPU 集群时尤为重要。

本周行动项

克隆 github.com/bassrehab/triton-kernels，使用提供的基准测试脚本针对您当前的 Mixtral 或 Qwen2-MoE 服务设置（在实际生产批次规模下）运行测试，并在决定集成前比较延迟数据。

纯 Triton MoE 内核在 512 以下批次规模中超越 Megablocks 运行 Mixtral

发生了什么

为何重要

亚太视角

本周行动项

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱