在最新一次复杂编程测试中,小米 MiMo 2.5 Pro 消耗了同类模型 6 倍以上的 token(模型处理文本的最小单位)却生成了无法运行的废代码,这说明大模型的跑分时代正在过去,真实交付能力才是分水岭。
这是什么
一位开发者设计了一个“武侠门派经营模拟器”的综合编程任务,让国内主流大模型在不借助外部工具的情况下直接生成完整代码。结果显示,DeepSeek V4 用约 2.2 万 token 就生成了功能完备、界面正常的程序;Kimi 仅用不到 1 万 token 也完成了任务。而小米 MiMo 2.5 Pro 在 3.2 万 token 上限时未写完,拉到 6.4 万仍未完成,最终放开到 12.8 万上限才勉强输出,实际消耗超 6 万 token。更严重的是,MiMo 交出的代码存在低级拼接错误,在浏览器中完全无法运行。
行业怎么看
我们注意到,标准评测榜单的分数正在与工程交付能力脱节。能在竞赛题中拿高分的模型,未必能应对连贯的复杂业务逻辑。算力消耗直接挂钩企业运营成本,低效模型在商业落地中缺乏竞争力。不过,我们也必须看到其中的风险:单一场景的“一轮定胜负”测试存在偶然性。有开发者指出,不同模型对提示词的敏感度差异极大,MiMo 的崩盘可能源于对特定指令格式的理解偏差,而非绝对的代码能力缺陷。仅凭一次非标准测试来全盘否定一个模型,结论或许过于武断。
对普通人的影响
对企业 IT:选型时不能再迷信评测榜单跑分,必须用自家实际业务场景做压力测试,否则极易踩中“跑分高但调用费钱且不可用”的坑。
对个人职场:用 AI 辅助编程不能只看它“写了多少”,更要花时间做代码审查(检查代码逻辑和结构),盲目信任大模型产出会留下严重的技术债。
对消费市场:各家手机厂商鼓吹的端侧 AI 能力目前仍有明显落差,复杂任务的稳定交付还需要更长周期的打磨。