找到 1 篇关于此标签的文章
一位开发者自建基准测试显示,Mistral 的 Devstral Small 2 在 8 项代码工程任务中得分超 80%,首次有本地模型跑赢多个闭源对手。开源代码模型的真实能力,可能被标准测试掩盖了。