Devstral Small 2 代码跑分首破 80% — Mistral 可能被严重低估

一位开发者自建基准测试显示，Mistral 的 Devstral Small 2 在 8 项代码工程任务中得分超过 80%，首次有本地模型跑赢多个闭源对手——开源代码模型的真实能力，可能被主流基准测试掩盖了。

这是什么

主流代码基准测试 SWE Bench 只测 Python，且只看测试是否通过（pass/fail），不关心模型是否引入新 bug 或写出冗余代码。一位开发者认为这不够，自建了 Scaffold Bench，覆盖 8 个维度：精准修复（只改该改的）、代码审计（只读不改）、范围纪律（不多动）、只读分析、验证修复、功能实现、响应速度和长上下文检索。

在他的测试中，Mistral 发布的 Devstral Small 2（24B 参数，使用 Q8 量化——即 8 位精度压缩，降低内存需求的技术）在 JavaScript、TypeScript、React、Go 和 SQL 任务上得分超过 80%，是首个突破该线的本地模型。据他称，甚至超过了 Sonnet 和 Codex 的某些版本。这位开发者此前主要用 Qwen 执行 + Claude 写规范 + Codex 做评审的混合方案，但发现 Devstral 引入的反模式和重复代码更少。

行业怎么看

我们注意到，Mistral 在社区中长期处于「不被当回事」的尴尬位置。这个跑分如果可复现，说明开源模型在特定垂直场景——代码工程——上可能已经追平闭源。这对坚持私有化部署的企业是实质性利好。

但值得警惕的是：第一，这是单一开发者的自建测试，方法论未经同行评审，他本人也承认「也许我的基准测试本身有问题」；第二，模型推理速度（TPS）偏慢，生产环境中延迟可能是硬伤；第三，该基准只覆盖前端和 Go 生态，Python、Java 等企业主流栈完全没有覆盖。跑分好不等于能用，这个判断我们坚持。

对普通人的影响

对企业 IT：开源代码模型逼近闭源水平，私有化部署的可行性在提升，但 24B 模型加 Q8 量化仍需 24GB 以上显存，硬件门槛不低。

对个人职场：开发者可以在本地跑一个接近闭源水平的代码助手，数据不出本机，但需要高端显卡且推理速度可能是日常摩擦点。

对消费市场：Mistral 若持续产出此类模型，有机会改变开源 AI 竞争格局，但目前仍是小众选择，生态和工具链远不如 Meta 的 Llama 成熟。

Devstral Small 2 代码跑分首破 80% — Mistral 可能被严重低估

这是什么

行业怎么看

对普通人的影响

相关推荐

Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率

libGDX 作者做极简 AI 编程助手 pi-mono — 对抗大厂工具臃肿化

LangChain 搭建 RAG 只需 30 行代码 — AI 落地卡在管线而非模型

Anthropic 给 Claude 装上四层记忆 — AI 编程助手开始学会"带脑子上班"

你的 AI 助手又贵又慢 — 这个新模型每百万 token 只要 3 块

你每天在手机上重复点的那堆操作，现在一句话就能搞定