Article Not Found

事件经过

2026 年初，AMD AI 高级总监 Stella Laurenzo 直接向 Anthropic 的 GitHub issue 追踪系统提交了一份量化审计报告，基于 6,852 个会话的数据，系统性记录了 Claude Code 的性能退化问题。这份报告没有新闻稿，没有媒体发布会，只有数据——观察人士如此描述。报告最终得出结论："Claude 无法被信任用于执行复杂的工程任务。" AMD 随后转向了其他服务提供商。

该数据集涵盖 234,760 次工具调用和 17,871 个思考块（thinking blocks）。根据 Laurenzo 的遥测数据，核心发现如下：

推理深度（相对基线的 thinking depth）下降 67%
为弥补每次调用推理深度不足，API 调用量增加了约 80 倍
编辑前代码读取频率出现明显下降——这是代码理解质量的直接代理指标
输出质量与一天中的时间段存在相关性，在 PST 高峰时段出现退化

其中，时间段相关性是操作层面最具意义的发现：模型输出质量与北美用户负载规律高度吻合，这意味着问题根源在于高并发下服务端对推理预算的节流（throttling），而非模型权重本身的能力退化。

为何值得关注

这不是一篇用户投诉帖。这是一位知名大型半导体公司高级工程师提交的、具有统计显著性的、带时间戳的多维回归分析报告—— 而 AMD 的回应是直接流失。对于 Anthropic 而言，这意味着一个重要参考客户的流失，且与一个有据可查、可复现的质量问题直接挂钩。

这对工程团队而言具有结构性意义。Anthropic 的 Adaptive Thinking 功能——在 Claude 3.5 Sonnet 推出 Extended Thinking 之后发布——允许模型在调用方未指定显式 budget_tokens 值时，自主分配推理 token 预算。AMD 的数据表明，这种自主分配并非纯粹由任务复杂度驱动。如果推理预算阈值会随基础设施负载而动态调整，那么将产生以下连锁问题：

在非高峰时段运行的评测套件（ eval suite），将无法反映高峰时段的生产环境表现
回归测试作为质量信号的有效性随之丧失——你测的不只是模型能力，还包括当下模型"愿意"投入多少推理资源
成本模型失效：为弥补推理深度不足而导致 API 调用量增加 80 倍，意味着延迟、成本和质量同步恶化
在使用 Claude Code 或类似集成工具时，工程团队对任意给定调用所实际应用的推理预算既无可观测性，也无控制权

AMD 的报告实际上将"模型质量"投诉重新定性为基础设施可靠性问题——这是一个更难被 Anthropic 轻易否认的问题类别。

技术细节

Anthropic 的 Extended Thinking API 允许开发者通过 thinking 参数显式控制推理预算：

{
  "thinking": {
    "type": "enabled",
    "
budget_tokens": 10000
  }
}

当未指定 budget_tokens 时，或者在以集成智能体形式使用 Claude Code 的场景下，Adaptive Thinking 便会激活。模型将评估任务复杂度并动态分配推理 token。Laurenzo 数据所揭示的架构层面问题，在于这是一个自我评估闭环：执行任务的是这套权重，估算任务复杂度的也是同一套权重。这在资源压力下会产生方向性偏差——一个以受限推理能力运行的模型，同时也更难准确判断自己需要更多推理资源。这是一种元认知层面的失败，只会不断叠加，而非自我修正。

80 倍的 API 调用量膨胀，正是这种失败模式的行为指纹。当单次调用的推理深度受到节流时，智能体循环（agentic loop）会通过增加迭代次数来补偿：浅层尝试替代了深度推理。最终结果是更高的延迟、更高的成本和更低的输出质量——三者同步恶化。而编辑前代码读取频率的下降是最具体的行为标记：在修改前跳过理解步骤，这种模式会在思考深度不足以支撑真正多步推理时特别显著地出现。

Adaptive Thinking 的核心假设

该功能的有效性建立在一个前提之上：模型能够准确地自我评估任务复杂度。AMD 的遥测数据提供了迄今为止对这一假设最大规模的经验性挑战，而时间段相关性正是最关键的证伪信号——任务复杂度不会在 PST 晚上 9 点发生变化，但基础设施负载会。

后续关注要点

Anthropic 对 GitHub issue 的回应：Anthropic 是否承认负载依赖性推理预算节流是一种设计选择或基础设施制约，将决定任何修复方案的范围。请关注 30 天内是否有官方声明或 API 更新日志发布。
显式预算强制执行：在生产环境运行 Claude Code 工作负载的工程团队，应评估是否在直接 API 调用中切换为显式指定 budget_tokens，而非依赖 Adaptive Thinking 的默认行为。这是目前可用的主要缓解手段。
竞争格局变化：AMD 明确转向其他服务提供商，这向 OpenAI 和 Google 施加了压力，促使其提供同等水平的遥测透明度。如果任一方在未来 30 天内发布推理预算可观测性工具，将直接针对这一差距展开竞争。
企业客户流失信号：请关注是否有其他大型工程组织提交类似的量化审计报告。一位具名高级总监的报告是一个数据点；若在多家企业间形成规律，则将演变为一场客户留存危机。
评测工具链 ：时间段混淆因素使通过 Anthropic API 运行的现有评测基准的有效性受到质疑。预计第三方评测框架将直接将时间采样控制作为应对措施纳入其中。

AMD 审计报告：Claude Code 在高负载下推理深度下降 67%

事件经过

为何值得关注

技术细节

Adaptive Thinking 的核心假设

后续关注要点

Related Reading

Claude Keeps Cutting Out Mid-Draft? Anthropic Just Raised Limits

Anthropic's Code w/ Claude 2026 Signals AI Coding Shifts to Real-World Implementation

Veterans Skip Reviews: Vibe Coding & Agentic Engineering Dangerously Converge

Google Lets Chrome Run AI Models Directly — The Browser is Becoming the New OS

Korean Temple Ordains Robot Monk — AI Spectacle Is the Real Bubble Risk

Local Small Models Ace Junior IT Ops: 30-Year Vet Predicts Human-Machine Shift

AMD 审计报告：Claude Code 在高负载下推理深度下降 67%

事 件经过

为何值得关注

技术细节

Adaptive Thinking 的核心假设

后续关注要点

Related Reading

Claude Keeps Cutting Out Mid-Draft? Anthropic Just Raised Limits

Anthropic's Code w/ Claude 2026 Signals AI Coding Shifts to Real-World Implementation

Veterans Skip Reviews: Vibe Coding & Agentic Engineering Dangerously Converge

Google Lets Chrome Run AI Models Directly — The Browser is Becoming the New OS

Korean Temple Ordains Robot Monk — AI Spectacle Is the Real Bubble Risk

Local Small Models Ace Junior IT Ops: 30-Year Vet Predicts Human-Machine Shift

事件经过