小米 MiMo-V2.5-Pro 在复杂社交推理测试中跑出 0.99 美元/局的成本,仅为 Kimi K2.6 的三分之一 — 大模型竞争正从「谁更聪明」转向「谁更便宜且够用」。

这是什么

近期,有开发者在类似「狼人杀」的高复杂度社交推理游戏《染钟楼》中测试了各家大模型。小米的 MiMo-V2.5-Pro 表现亮眼,它与 Kimi K2.6 同处第一梯队,但逻辑截然不同。Kimi 虽推理缜密,但每局平均消耗 58 万 token(模型处理文本的最小单位),耗时长达 10-15 小时,成本 2.65 美元;而 MiMo 每局仅消耗约 18 万 token,2-3 小时即可完赛,成本降至 0.99 美元,且工具调用(模型请求外部功能执行任务的操作)错误率仅为 0.4%。我们注意到,MiMo 正以「足够聪明且极具性价比」的姿态,成为目前高端模型中最具实用价值的选择。

行业怎么看

我们认为,这场测试撕开了大模型落地的一个真实痛点:推理冗余。Kimi 堆砌算力换取极致准确率的做法,在商业场景中并不划算,冗长的输出和响应时间会直接劝退企业用户。MiMo 在保证核心推理能力的前提下,将成本和响应时间压缩至可用区间,0.4% 的错误率说明其稳定性极好。但值得警惕的是,MiMo 的胜率极度失衡——扮演好人阵营胜率高达 88%,扮演坏人仅 48%。这暴露出它在策略灵活性上的短板:当需要伪装或进行非逻辑博弈时,它显得过于「正直」且笨拙。同时,游戏测试的指标也不能完全等同于企业级生产环境的可靠性。

对普通人的影响

对企业 IT:随着单次复杂任务推理成本跌破 1 美元,Agent(能独立执行多步任务的 AI)在长流程业务中的规模化部署变得财务可行。

对个人职场:大模型已能胜任复杂的多人社交推理与博弈,依赖信息差和复杂沟通的谈判、协调类岗位,将面临新的自动化提效压力。

对消费市场:小米等硬件厂商正借由低成本模型切入端侧生态,未来消费者可能在手机、车机上直接用上便宜且响应极快的推理服务。