返回首页
SWE-bench
找到 4 篇关于此标签的文章
MetaProgramBench
Meta 新基准测 200 任务:AI 从零重建大型程序仍不靠谱
Meta 开源 ProgramBench,用 200 个任务测试 AI 从零构建完整程序的能力,结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水,也暴露了现有编程基准被刷分的隐患。
May 61 分钟
OpenHandsDevin
OpenHands 获 4 万星 — 开源社区开始追平闭源 AI 程序员
OpenHands 是一个在 Docker 沙箱里让 AI 自主写代码、修 Bug 的开源平台,GitHub 星标已超 4 万。它值得关心,因为开源社区正以惊人速度缩小与闭源编程 Agent 的差距,企业私有化部署有了新选项。
May 51 分钟
Claude
Opus 4.7Anthropic
Opus 4.7 来了,我并不建议你升级
Anthropic 发布 Claude Opus 4.7,移除 temperature/top_p/top_k 参数支持,新 tokenizer 导致实际费用最高上涨 35%, 生产环境升级需谨慎。
Apr 171 分钟
LangSmithDeepEval
别再追逐排行榜:伯克利揭露有缺陷的 AI Agent 基准测试
伯克利研究人员揭示了顶级 AI 基准测试中的关键数据污染问题。了解如何验证您自己的 Agent 工具、避免过拟合,并构建更可靠的系统。
Apr 121 分钟