这是什么
Ollama 0.19 版整合苹果 MLX 框架(苹果专为自研芯片做的机器学习加速层)后,M 系列芯片推理速度提升近一倍 — 本地跑大模型正在从极客实验变成普通用户也行的日常操作。实际效果:32GB 内存的 Mac mini M4 上,运行通义千问 Qwen3.5-35B 量化版(一种压缩模型体积但保留大部分能力的技术),速度达 12-22 tokens/s,日常对话够用。整个过程一行命令,无需配 Python 环境或 GPU 驱动。
行业怎么看
我们注意到两个趋势正在汇合:苹果持续加码端侧 AI 基础设施,MLX 让 Mac 推理效率逐步追上 NVIDIA 生态;开源模型能力已接近闭源模型中上水平,本地跑起来「够用」。社区验证的甜点配置是 32GB Mac + 32B 量化模型,性价比最高。
但本地模型能力天花板仍在,复杂推理和多轮长对话仍是云端强项;32GB 内存起步的硬件要求,对大多数 Windows 用户并不友好。Ollama 本质是 Mac 生态利好,而非全民本地 AI — 这个判断不能含糊。
对普通人的影响
企业 IT:敏感数据可用本地模型处理,合规成本降低,但需评估 Mac 采购和员工培训的隐性成本。
个人职场:多了离线可用的 AI 选项,适合邮件起草、笔记整理等轻量任务,但尚不能替代 Claude 或 GPT 做深度分析。
消费市场:苹果 Mac 的 AI 叙事再添一块拼图,可能加速 AI PC 概念落地,但 Windows 阵营的同类体验仍明显落后。