SWE-bench

找到 4 篇关于此标签的文章

MetaProgramBench

Meta 新基准测 200 任务：AI 从零重建大型程序仍不靠谱

Meta 开源 ProgramBench，用 200 个任务测试 AI 从零构建完整程序的能力，结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水，也暴露了现有编程基准被刷分的隐患。

OpenHands 获 4 万星 — 开源社区开始追平闭源 AI 程序员

OpenHands 是一个在 Docker 沙箱里让 AI 自主写代码、修 Bug 的开源平台，GitHub 星标已超 4 万。它值得关心，因为开源社区正以惊人速度缩小与闭源编程 Agent 的差距，企业私有化部署有了新选项。

Claude Opus 4.7Anthropic

Opus 4.7 来了，我并不建议你升级

Anthropic 发布 Claude Opus 4.7，移除 temperature/top_p/top_k 参数支持，新 tokenizer 导致实际费用最高上涨 35%，生产环境升级需谨慎。

LangSmithDeepEval

别再追逐排行榜：伯克利揭露有缺陷的 AI Agent 基准测试

伯克利研究人员揭示了顶级 AI 基准测试中的关键数据污染问题。了解如何验证您自己的 Agent 工具、避免过拟合，并构建更可靠的系统。