一位开发者自建基准测试显示,Mistral 的 Devstral Small 2 在 8 项代码工程任务中得分超过 80%,首次有本地模型跑赢多个闭源对手——开源代码模型的真实能力,可能被主流基准测试掩盖了。

这是什么

主流代码基准测试 SWE Bench 只测 Python,且只看测试是否通过(pass/fail),不关心模型是否引入新 bug 或写出冗余代码。一位开发者认为这不够,自建了 Scaffold Bench,覆盖 8 个维度:精准修复(只改该改的)、代码审计(只读不改)、范围纪律(不多动)、只读分析、验证修复、功能实现、响应速度和长上下文检索。

在他的测试中,Mistral 发布的 Devstral Small 2(24B 参数,使用 Q8 量化——即 8 位精度压缩,降低内存需求的技术)在 JavaScript、TypeScript、React、Go 和 SQL 任务上得分超过 80%,是首个突破该线的本地模型。据他称,甚至超过了 Sonnet 和 Codex 的某些版本。这位开发者此前主要用 Qwen 执行 + Claude 写规范 + Codex 做评审的混合方案,但发现 Devstral 引入的反模式和重复代码更少。

行业怎么看

我们注意到,Mistral 在社区中长期处于「不被当回事」的尴尬位置。这个跑分如果可复现,说明开源模型在特定垂直场景——代码工程——上可能已经追平闭源。这对坚持私有化部署的企业是实质性利好。

但值得警惕的是:第一,这是单一开发者的自建测试,方法论未经同行评审,他本人也承认「也许我的基准测试本身有问题」;第二,模型推理速度(TPS)偏慢,生产环境中延迟可能是硬伤;第三,该基准只覆盖前端和 Go 生态,Python、Java 等企业主流栈完全没有覆盖。跑分好不等于能用,这个判断我们坚持。

对普通人的影响

对企业 IT:开源代码模型逼近闭源水平,私有化部署的可行性在提升,但 24B 模型加 Q8 量化仍需 24GB 以上显存,硬件门槛不低。

对个人职场:开发者可以在本地跑一个接近闭源水平的代码助手,数据不出本机,但需要高端显卡且推理速度可能是日常摩擦点。

对消费市场:Mistral 若持续产出此类模型,有机会改变开源 AI 竞争格局,但目前仍是小众选择,生态和工具链远不如 Meta 的 Llama 成熟。