Article Not Found

小米大模型 MiMo 在复杂推理测试中登顶 — 性价比开始取代参数量成为新焦点

小米 MiMo-V2.5-Pro 在复杂社交推理测试中跑出 0.99 美元/局的成本，仅为 Kimi K2.6 的三分之一 — 大模型竞争正从「谁更聪明」转向「谁更便宜且够用」。

这是什么

近期，有开发者在类似「狼人杀」的高复杂度社交推理游戏《染钟楼》中测试了各家大模型。小米的 MiMo-V2.5-Pro 表现亮眼，它与 Kimi K2.6 同处第一梯队，但逻辑截然不同。Kimi 虽推理缜密，但每局平均消耗 58 万 token（模型处理文本的最小单位），耗时长达 10-15 小时，成本 2.65 美元；而 MiMo 每局仅消耗约 18 万 token，2-3 小时即可完赛，成本降至 0.99 美元，且工具调用（模型请求外部功能执行任务的操作）错误率仅为 0.4%。我们注意到，MiMo 正以「足够聪明且极具性价比」的姿态，成为目前高端模型中最具实用价值的选择。

行业怎么看

我们认为，这场测试撕开了大模型落地的一个真实痛点：推理冗余。Kimi 堆砌算力换取极致准确率的做法，在商业场景中并不划算，冗长的输出和响应时间会直接劝退企业用户。MiMo 在保证核心推理能力的前提下，将成本和响应时间压缩至可用区间，0.4% 的错误率说明其稳定性极好。但值得警惕的是，MiMo 的胜率极度失衡——扮演好人阵营胜率高达 88%，扮演坏人仅 48%。这暴露出它在策略灵活性上的短板：当需要伪装或进行非逻辑博弈时，它显得过于「正直」且笨拙。同时，游戏测试的指标也不能完全等同于企业级生产环境的可靠性。

对普通人的影响

对企业 IT：随着单次复杂任务推理成本跌破 1 美元，Agent（能独立执行多步任务的 AI）在长流程业务中的规模化部署变得财务可行。

对个人职场：大模型已能胜任复杂的多人社交推理与博弈，依赖信息差和复杂沟通的谈判、协调类岗位，将面临新的自动化提效压力。

对消费市场：小米等硬件厂商正借由低成本模型切入端侧生态，未来消费者可能在手机、车机上直接用上便宜且响应极快的推理服务。

小米大模型 MiMo 在复杂推理测试中登顶 — 性价比开始取代参数量成为新焦点

这是什么

行业怎么看

对普通人的影响

Related Reading

Xiaomi MiMo Wastes 6x Compute on Junk Code; LLMs Shift to Delivery Efficiency

Claude Keeps Cutting Out Mid-Draft? Anthropic Just Raised Limits

Google Lets Chrome Run AI Models Directly — The Browser is Becoming the New OS

Korean Temple Ordains Robot Monk — AI Spectacle Is the Real Bubble Risk

Local Small Models Ace Junior IT Ops: 30-Year Vet Predicts Human-Machine Shift

Gov AI Veto: How Solo Founders Prep