返回首页
基准测试
找到 2 篇关于此标签的文章
MetaProgramBench
Meta 新基准测 200 任务:AI 从零重建大型程序仍不靠谱
Meta 开源 ProgramBench,用 200 个任务测试 AI 从零构建完整程序的能力,结果最强闭源模型也远未及格。这给"AI 能造软件"的叙事泼了冷水,也暴露了现有编程基准被刷分的隐患。
May 61 分钟
AnthropicClaude
Anthropic 被指用不实信息给 新模型造势 — AI 公司的 「发布会公关」正在透支可信度
Anthropic 旗下新模型 Claude Mythos 的发布被外部分析人士指出存在误导性 宣传,核心争议集中在性能对比数据的 呈现方式上。这不是孤立事件——AI 头 部公司在发布节点夸大或选择性披 露数据已成惯常操作,值得我们认真审 视这个行业的信息质量问题。
Apr 181 分钟