Article Not Found

Anthropic 被指用不实信息给新模型造势 — AI 公司的「发布会公关」正在透支可信度

这是什么

Lobsters AI 的一篇分析文章点名批评 Anthropic 在推出 Claude Mythos 模型时，使用了具有误导性的基准测试（即行业用来横向比较模型能力的标准化考题集）对比数据。具体问题包括：选取对自身有利的评测子集、回避与竞争对手直接比较的不利项目，以及在官方博客中以「SOTA（当前最优水平）」的措辞定性一些存在争议的结果。文章作者认为，这些做法让普通读者难以判断模型的真实能力边界。

需要说明的是，该报道本身来自独立通讯媒体，并非同行评审研究，Anthropic 官方目前未作正式回应。但文中列举的具体数据对比可供核查，并非纯属观点输出。

行业怎么看

在 AI 从业者社区中，对「基准测试游戏化」的担忧早已存在。斯坦福 HAI 研究所和独立评测机构 HELM 均曾指出，当前主流大模型公司普遍存在「为跑分优化模型」而非「为真实场景优化模型」的倾向，导致公开排行榜与实际使用体验之间的落差越来越大。

但也有不同声音。部分研究者认为，选择有利的评测维度本身不等于造假——就像企业财报只会重点展示增长最快的业务线，只要数据不是捏造的，选择性呈现是商业惯例而非欺诈。问题在于，AI 公司的发布材料常常被媒体和公众当作中立的技术事实来消费，而非当作有立场的营销材料来审读。

我们注意到，这次争议的深层结构颇为典型：指控方没有完整的内部数据，被指控方没有动机主动澄清，而夹在中间的是大量依赖这些信息做决策的企业用户和开发者。这种信息不对称，是整个 AI 行业当前的结构性问题，不只是 Anthropic 一家。

对普通人的影响

对企业 IT： 正在评估引入哪家大模型服务的技术团队，需要警惕直接将厂商公布的基准数据作为采购依据——建议要求厂商提供与自身业务场景高度匹配的定制化测试结果，或引入第三方验证。

对个人职场：在工作中使用或推荐 AI 工具的人，若引用「某模型全球第一」类表述，面临的说服力风险正在上升—— 同事和上司对这类说法的信任度在持续下降，具体场景中的实测结果比排行榜更有说服力。

对消费市场：短期内各家 AI 产品仍会密集发布，发布节点的声量竞争压力只会更大，夸大宣传的概率不会因一篇批评文章而下降。我们建议把「发布会数字」和「上手体验」之间的落差，当作一个需要习惯的行业常态来看待。

Anthropic 被指用不实信息给新模型造势 — AI 公司的「发布会公关」正在透支可信度

这是什么

行业怎么看

对普通人的影响

Related Reading

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

The One Thing You Must Do with Claude Code: Sign a Contract ( CLAUDE.md)

Pro Users Locked Out of Claude Code Unless They Pay $100/ Mo for Max

Anthropic's Claude Code Source Leak : 510 K Lines Reveal How It Saves You Money

The AI Writing Tool Even Gov't Agencies Use Quietly — We Can Too

Anthropic 被指用不实信息给 新模型造势 — AI 公司的 「发布会公关」正在透支可信度

这是什么

行业怎么看

对普通人的影响

Related Reading

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

The One Thing You Must Do with Claude Code: Sign a Contract ( CLAUDE.md)

Pro Users Locked Out of Claude Code Unless They Pay $100/ Mo for Max

Anthropic's Claude Code Source Leak : 510 K Lines Reveal How It Saves You Money

The AI Writing Tool Even Gov't Agencies Use Quietly — We Can Too

Anthropic 被指用不实信息给新模型造势 — AI 公司的「发布会公关」正在透支可信度