这是什么
Lobsters AI 的一篇分析文章点名批评 Anthropic 在推出 Claude Mythos 模型时,使用了具有误导性的基 准测试(即行业用来横 向比较模型能力的标准化考题集) 对比数据。具体问题包括:选取对 自身有利的评测子集、回 避与竞争对手直接比较的不利项目,以及在 官方博客中以「SOTA(当前最优水 平)」的措辞定性一些存在争议的结果 。文章作者认为,这些做法让普通读者难以判 断模型的真实能力边界。
需要说明的是,该报 道本身来自独立通讯媒体,并非同 行评审研究,Anthropic 官方目前未 作正式回应。但文中列 举的具体数据对比可供核查,并非 纯属观点输出。
行业怎么看
在 AI 从 业者社区中,对「基准测试游戏化」的担 忧早已存在。斯坦福 HAI 研究所和独 立评测机构 HELM 均曾指出,当前主 流大模型公司普遍存在「为跑分优 化模型」而非「为真实场景优化模型」的倾向,导 致公开排行榜与实际使用体验之间的落 差越来越大。
但也有不同声音。部 分研究者认为,选择有利的评测维度本身不等 于造假——就像企业财报只会 重点展示增长最快的业务线,只 要数据不是捏造的,选择性呈现是商业 惯例而非欺诈。问题在于,AI 公司的发布材料常常被 媒体和公众当作中立的技术事实来消 费,而非当作有立场的营销材料来审读。
我 们注意到,这次争议的深层结构颇为典型: 指控方没有完整的内 部数据,被指控方没有动机主 动澄清,而夹在中间的是大量依赖这 些信息做决策的企业用户和开发者。这种信 息不对称,是整个 AI 行业当前的结构性问题,不只 是 Anthropic 一家。
对普通人的影响
对企业 IT: 正在评估引入哪家大模型服 务的技术团队,需要警惕直接将厂商公 布的基准数据作为采购依据——建 议要求厂商提供与自身业务场景高度匹配的定 制化测试结果,或引入第三方验证。
对个人职场:在 工作中使用或推荐 AI 工具的人,若引 用「某模型全球第一」类 表述,面临的说服力风险正在上升—— 同事和上司对这类说 法的信任度在持续下降,具体场景中的 实测结果比排行榜更有说服力。
对消费市场:短期内各家 AI 产品仍会密 集发布,发布节点的声量竞争压力只 会更大,夸大宣传的概率不会因 一篇批评文章而下降。我们建议把「发布会数字 」和「上手体验」之间的落差,当 作一个需要习惯的行业常态来看待。