Article Not Found

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

发生了什么

一位 Reddit 用户利用 llama-bench 和 Q4_K_M 量化技术，在 MacBook Air M5（32GB，10 核 CPU/GPU）上对 10 个模型家族的 37 个 LLM 进行了系统基准测试。测试衡量了两个关键指标：令牌生成速度（tg128，tokens/sec）和提示处理速度（pp256，tokens/sec）。其目标是建立一个涵盖从 M1 到 M5 所有 Apple Silicon 芯片的社区数据库。

为何重要

对于运行本地推理的独立开发者和中小企业而言，硬件选择和模型选择直接影响成本与用户体验。数据中的关键发现如下：

Qwen 3 0.6B 的生成速度达到 91.9 tok/s，仅需 0.6 GB RAM，足以支持实时 UI 应用。
Qwen 3.5 35B-A3B MoE 在仅使用 20.7 GB RAM 的情况下运行速度为 31.3 tok/s，在内存占用相当的情况下，比密集型 32B 模型（2.5 tok/s）快 12 倍。
密集型 32B 模型（QwQ、Qwen 3 32B、DeepSeek R1 Distill 32B）在该硬件上的速度均停滞在 2.5–2.6 tok/s 左右，使其难以用于交互式场景。
针对编码任务，Qwen 2.5 Coder 7B 提供 11 tok/s 的速度，足以满足舒适的交互需求；而 14B 变体虽质量更高，但速度降至 6 tok/s。

所使用的基准测试工具 llama-bench 是开源的，这意味着任何开发者都可以在自己的硬件上复现这些测试，并将结果贡献给社区数据库。

亚太地区视角

在此基准测试中，源自中国的模型占据了顶级性能梯队。Qwen 3（阿里巴巴）和 Qwen 2.5 Coder 拥有最快的生成速度和最佳的 MoE 效率。DeepSeek R1 Distill 变体同时出现在快速和强能梯队中。对于在中国和东南亚开发需要设备端推理产品的开发者而言——无论是为了满足数据隐私合规、离线能力需求，还是为了规避 API 成本——这些数据提供了直接的硬件到模型选择指南。Qwen 系列在 Q4_K_M 量化方面的强劲表现，对于已经熟悉阿里巴巴模型生态的团队尤为相关。此处展示的 MoE 架构优势也验证了国内中国 AI 实验室在效率而非原始参数量上竞争的方向。

本周行动项

如果您在 Apple Silicon 上运行本地推理，请通过 llama.cpp 安装 llama-bench，在 Qwen 3.5 35B-A3B MoE 上运行 Q4_K_M 基准测试以对比您当前的模型选择，并评估 MoE 的速度优势（31 tok/s 对比密集型 32B 的约 2.5 tok/s）是否足以支持切换——特别是如果您的用例涉及交互式响应生成。

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

发生了什么

为何重要

亚太地区视角

本周行动项

Related Reading

Goldman Sachs Warning : S &P 500 Now Half an AI Index

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Quarter the Cost , Same AI Quality : How I Cut Client Bills