事 件经过
2026 年初,AMD AI 高级总监 Stella Laurenzo 直 接向 Anthropic 的 GitHub issue 追踪系统提交了一 份量化审计报告,基于 6,852 个会话的数据,系统性记录了 Claude Code 的性能退化问 题。这份报告没有新闻稿,没有媒体发 布会,只有数据——观察人士如 此描述。报告最终得出结论:"Claude 无法被信任用于执行复杂的工程任务。" AMD 随后转向了其他服务提供商。
该数据集涵盖 234,760 次 工具调用和 17,871 个思考块(thinking blocks)。根据 Laurenzo 的遥测数据,核心发现如 下:
- 推理深度(相对基线的 thinking depth)下降 67%
- 为 弥补每次调用推理深度不足,API 调用量增加了约 80 倍
- 编辑前代码读取频率出现明显下降——这是代码理解质量的直接 代理指标
- 输出质量与一天中的时间段存在相关性,在 PST 高峰时 段出现退化
其中,时间段相关性是操作层面最 具意义的发现:模型输出质量与北美用户负载规律高度 吻合,这意味着问题根源在于高并发下服 务端对推理预算的节流(throttling),而非模型权重本身的能 力退化。
为何值得关注
这不是一篇用户投诉帖。这是一位 知名大型半导体公司高级工程师提交的、具有统 计显著性的、带时间戳的多维回归分析报告—— 而 AMD 的回应是直接流失。对 于 Anthropic 而言,这意味着一个重要参考客户的流 失,且与一个有据可查、 可复现的质量问题直接挂钩。
这对工程团队而
言具有结构性意义。Anthropic 的 Adaptive Thinking 功能——在 Claude 3.5 Sonnet 推出
Extended Thinking 之后发布——允许模型在调用方未指定显式
budget_tokens 值时,自主分配推理 token 预算。AMD 的数据表
明,这种自主分配并非纯粹由任务复杂度驱动。如果推理预算阈值会随基
础设施负载而动态调整,那么将产生以下连锁问
题:
- 在非高峰时段运行的评测套件( eval suite),将无法反映高峰时段的生产环境表现
- 回归测试作为质量信号的 有效性随之丧失——你测的不只 是模型能力,还包括当下模型"愿意"投入多少推理资源
- 成本 模型失效:为弥补推理深度不足而导致 API 调用量增加 80 倍,意味着延迟、成本和质量同步恶化
- 在使用 Claude Code 或类似 集成工具时,工程团队对任意给定调用所实际应 用的推理预算既无可观测性,也无控制权
AMD 的报告实 际上将"模型质量"投诉重新定性为基础设施可靠性问题——这 是一个更难被 Anthropic 轻易否认的问题类别 。
技术细节
Anthropic 的 Extended Thinking API 允许开发者通过 thinking 参数显
式控制推理预算:
{
"thinking": {
"type": "enabled",
"
budget_tokens": 10000
}
}当未指定 budget_tokens 时,或者在以集
成智能体形式使用 Claude Code 的场景下,Adaptive Thinking 便会激活。模型将
评估任务复杂度并动态分配推理 token。Laurenzo 数
据所揭示的架构层面问题,在于这是
一个自我评估闭环:执行任务的是
这套权重,估算任务复杂度的也是同
一套权重。这在资源压力下会产生方向性
偏差——一个以受限推理能力运行的模型,同
时也更难准确判断自己需要更多推理资源。这是一种
元认知层面的失败,只会不断
叠加,而非自我修正。
80 倍的 API 调用量膨胀, 正是这种失败模式的行为指纹。当单次调用的推理深度受 到节流时,智能体循环(agentic loop)会通 过增加迭代次数来补偿:浅层尝试替代了深度 推理。最终结果是更高的延迟、更高的成本和更低的输出质量——三者同步恶化。而 编辑前代码读取频率的下降是最具体的行为标记: 在修改前跳过理解步骤,这种模 式会在思考深度不足以支撑真正多步推 理时特别显著地出现。
Adaptive Thinking 的核心假设
该 功能的有效性建立在一个前提之上:模型能够准 确地自我评估任务复杂度。AMD 的遥测数据提供了迄今为止对这 一假设最大规模的经验性挑 战,而时间段相关性正是最关键的证 伪信号——任务复杂度不会在 PST 晚上 9 点发生变化,但基础设施负载会。
后续关注要点
- Anthropic 对 GitHub issue 的回应:Anthropic 是否承认负载依赖性 推理预算节流是一种设计选择或基础设施制约 ,将决定任何修复方案的范围。请 关注 30 天内是否有官方声明或 API 更新日志发 布。
- 显式预算强制执行:在生产环境运行 Claude Code 工
作负载的工程团队,应评估是否在直
接 API 调用中切换为显式指定
budget_tokens, 而非依赖 Adaptive Thinking 的默认行为。这是目前可用的主要缓 解手段。 - 竞争格局变化:AMD 明确转向其他服务提供商,这向 OpenAI 和 Google 施加了压力,促使其提供同等水 平的遥测透明度。如果任一方在未来 30 天内发 布推理预算可观测性工具,将直接针对这一 差距展开竞争。
- 企业客户流失信 号:请关注是否有其他大型工程组织提交类似的量化审计报告。一位具 名高级总监的报告是一个数据点;若在多 家企业间形成规律,则将 演变为一场客户留存危机。
- 评测工具链 :时间段混淆因素使通过 Anthropic API 运 行的现有评测基准的有效性受到质疑。预计第三方评测框架将直 接将时间采样控制作为应对措施 纳入其中。