编程Agent

找到 1 篇关于此标签的文章

Meta 新基准测 200 任务：AI 从零重建大型程序仍不靠谱

Meta 开源 ProgramBench，用 200 个任务测试 AI 从零构建完整程序的能力，结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水，也暴露了现有编程基准被刷分的隐患。