找到 1 篇关于此标签的文章
Meta 开源 ProgramBench,用 200 个任务测试 AI 从零构建完整程序的能力,结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水,也暴露了现有编程基准被刷分的隐患。