MoE

找到 6 篇关于此标签的文章

MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7（229B MoE）的首批 GGUF 量化版本，提供 Q3_K_L（110GB）和 Q8_0（243GB）两种规格，现已上架 HuggingFace。

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试，结果显示 MoE 模型在速度与质量比方面表现最佳。

在 vLLM 上运行 Gemma 4 26B-A4B：社区故障排查笔记

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一，DGX Spark GB10 上的 INT4 量化版本速度过慢。

llama.cppQwen Coder

APEX 量化与 K-Quants：为何 MoE 编码模型需要不同的压缩策略

APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度，在跨文件编码代理任务中表现优于通用的 K-quants 方法。

纯 Triton MoE 内核在 512 以下批次规模中超越 Megablocks 运行 Mixtral

一种融合 Triton 内核将 MoE 前向传播从 24+ 次启动减少至 5 次，在批次规模 128 时比 Megablocks 快 31%。

Qwen3Alibaba Cloud

Qwen3.6-397B-A17B: First Open Model to Match Claude Sonnet in Real Use

Community testing finds Qwen3.6-397B-A17B matches Claude Sonnet reliability in real tasks, beating GLM-5.1 and Kimi-k2.5.