Article Not Found

小米 MiMo 耗六倍算力仍出废代码，大模型竞争正从跑分转向交付效率

在最新一次复杂编程测试中，小米 MiMo 2.5 Pro 消耗了同类模型 6 倍以上的 token（模型处理文本的最小单位）却生成了无法运行的废代码，这说明大模型的跑分时代正在过去，真实交付能力才是分水岭。

这是什么

一位开发者设计了一个“武侠门派经营模拟器”的综合编程任务，让国内主流大模型在不借助外部工具的情况下直接生成完整代码。结果显示，DeepSeek V4 用约 2.2 万 token 就生成了功能完备、界面正常的程序；Kimi 仅用不到 1 万 token 也完成了任务。而小米 MiMo 2.5 Pro 在 3.2 万 token 上限时未写完，拉到 6.4 万仍未完成，最终放开到 12.8 万上限才勉强输出，实际消耗超 6 万 token。更严重的是，MiMo 交出的代码存在低级拼接错误，在浏览器中完全无法运行。

行业怎么看

我们注意到，标准评测榜单的分数正在与工程交付能力脱节。能在竞赛题中拿高分的模型，未必能应对连贯的复杂业务逻辑。算力消耗直接挂钩企业运营成本，低效模型在商业落地中缺乏竞争力。不过，我们也必须看到其中的风险：单一场景的“一轮定胜负”测试存在偶然性。有开发者指出，不同模型对提示词的敏感度差异极大，MiMo 的崩盘可能源于对特定指令格式的理解偏差，而非绝对的代码能力缺陷。仅凭一次非标准测试来全盘否定一个模型，结论或许过于武断。

对普通人的影响

对企业 IT：选型时不能再迷信评测榜单跑分，必须用自家实际业务场景做压力测试，否则极易踩中“跑分高但调用费钱且不可用”的坑。

对个人职场：用 AI 辅助编程不能只看它“写了多少”，更要花时间做代码审查（检查代码逻辑和结构），盲目信任大模型产出会留下严重的技术债。

对消费市场：各家手机厂商鼓吹的端侧 AI 能力目前仍有明显落差，复杂任务的稳定交付还需要更长周期的打磨。

小米 MiMo 耗六倍算力仍出废代码，大模型竞争正从跑分转向交付效率

这是什么

行业怎么看

对普通人的影响

Related Reading

Xiaomi MiMo Wastes 6x Compute on Junk Code; LLMs Shift to Delivery Efficiency

DeepSeek-TUI Tops GitHub at 2434 Stars: Terminal AI Agent Goes Practical

Stop Guessing RAG Quality: RAGAS Uses AI to Grade AI

65% of Code Tasks Run Locally — API Bills Drop 74%, Most Pay a Cloud Laziness Tax

Distributed AI Racks Outdoors? Reddit Warns of Catalytic Converter Theft

Stop Scoring RAG by Feel: AI Apps Enter Data-Driven Operations Era