基准测试

找到 2 篇关于此标签的文章

MetaProgramBench

Meta 新基准测 200 任务：AI 从零重建大型程序仍不靠谱

Meta 开源 ProgramBench，用 200 个任务测试 AI 从零构建完整程序的能力，结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水，也暴露了现有编程基准被刷分的隐患。

AnthropicClaude

Anthropic 被指用不实信息给新模型造势 — AI 公司的「发布会公关」正在透支可信度

Anthropic 旗下新模型 Claude Mythos 的发布被外部分析人士指出存在误导性宣传，核心争议集中在性能对比数据的呈现方式上。这不是孤立事件——AI 头部公司在发布节点夸大或选择性披露数据已成惯常操作，值得我们认真审视这个行业的信息质量问题。