发生了什么
一位 Reddit 用户利用 llama-bench 和 Q4_K_M 量化技术,在 MacBook Air M5(32GB,10 核 CPU/GPU)上对 10 个模型家族的 37 个 LLM 进行了系统基准测试。测试衡量了两个关键指标:令牌生成速度(tg128,tokens/sec)和提示处理速度(pp256,tokens/sec)。其目标是建立一个涵盖从 M1 到 M5 所有 Apple Silicon 芯片的社区数据库。
为何重要
对于运行本地推理的独立开发者和中小企业而言,硬件选择和模型选择直接影响成本与用户体验。数据中的关键发现如下:
- Qwen 3 0.6B 的生成速度达到 91.9 tok/s,仅需 0.6 GB RAM,足以支持实时 UI 应用。
- Qwen 3.5 35B-A3B MoE 在仅使用 20.7 GB RAM 的情况下运行速度为 31.3 tok/s,在内存占用相当的情况下,比密集型 32B 模型(2.5 tok/s)快 12 倍。
- 密集型 32B 模型(QwQ、Qwen 3 32B、DeepSeek R1 Distill 32B)在该硬件上的速度均停滞在 2.5–2.6 tok/s 左右,使其难以用于交互式场景。
- 针对编码任务,Qwen 2.5 Coder 7B 提供 11 tok/s 的速度,足以满足舒适的交互需求;而 14B 变体虽质量更高,但速度降至 6 tok/s。
所使用的基准测试工具 llama-bench 是开源的,这意味着任何开发者都可以在自己的硬件上复现这些测试,并将结果贡献给社区数据库。
亚太地区视角
在此基准测试中,源自中国的模型占据了顶级性能梯队。Qwen 3(阿里巴巴)和 Qwen 2.5 Coder 拥有最快的生成速度和最佳的 MoE 效率。DeepSeek R1 Distill 变体同时出现在快速和强能梯队中。对于在中国和东南亚开发需要设备端推理产品的开发者而言——无论是为了满足数据隐私合规、离线能力需求,还是为了规避 API 成本——这些数据提供了直接的硬件到模型选择指南。Qwen 系列在 Q4_K_M 量化方面的强劲表现,对于已经熟悉阿里巴巴模型生态的团队尤为相关。此处展示的 MoE 架构优势也验证了国内中国 AI 实验室在效率而非原始参数量上竞争的方向。
本周行动项
如果您在 Apple Silicon 上运行本地推理,请通过 llama.cpp 安装 llama-bench,在 Qwen 3.5 35B-A3B MoE 上运行 Q4_K_M 基准测试以对比您当前的模型选择,并评估 MoE 的速度优势(31 tok/s 对比密集型 32B 的约 2.5 tok/s)是否足以支持切换——特别是如果您的用例涉及交互式响应生成。