发生了什么

据 掘金作者董张宇发布的上线后 分析报告,Anthropic 在 Opus 4.6 发布约两 个月后推出了 Claude Opus 4.7。新模型配备 100 万 token 的上下文窗口、128k 最大输出 token,视觉分辨率也从约 1.15MP 提升至 3.75MP。在 SWE-bench Pro 上,Opus 4.7 的得分从上一版本的 53.4% 跃升至 64.3%——近 11 个百分点的提升,使其在公开可用模 型中跻身软件工程任务的第一梯队。

据同 一消息来源,Anthropic 内部已承认 Opus 4.7 并非公司当 前能力最强的模型;一个名为 Claude Mythos Preview 的更强系统目前 仍处于私有预览阶段。

为何值得关注

能力层 面的提升确实存在,但三项变更为生产环境工程团队带来了不可忽视的 摩擦。

tokenizer 变更导致实际费用上涨

据掘金分析报告, Opus 4.7 搭载了全新 tokenizer,对等效输入的 token 消耗量膨胀约 1 倍至 1.35 倍。Anthropic 公布的定 价表未作调整,但每次请求的实际费用随 token 膨胀等比上 涨。同一报告指出,Reddit 开发者社区将此定性为变 相涨价。

破坏性 API 变更:采样参数被移除

Opus 4.7 已 完全移除对 temperaturetop_ptop_k 参数的支持。包含上 述字段的请求现在将返回 400 错误。对于任何依赖 temperature= 0 实现确定性或一致性输出的生产流水线而言,这是一次硬性破坏性变更—— 而这在代码生成、数据提取和分类工作流中是极为常见的模式。

Anthropic 给出的迁移路径是基于 prompt 的行为控制。据分析报告引用的开发者反馈,对于需要精确管 理输出分布的团队而言,这一替代方案普遍被认为力度不足。

推理过程不透明与自适应推断

此 前版本中可手动配置的 thinking budget 已被自适应推理模式取代, 模型将自主选择推断深度。推理轨迹默认隐藏;开发者必须显 式启用 summarized 模式,才能获得对模型认知过程的任 何可见性。对于 agent 工作流而言,这消除了两个关键调试信号:每步骤的算 力消耗以及中间推理状态。

新推出的 Task Budget 功能允许开发者为整个 agent 循环设 置 token 上限。然而,分析报告指出该功能在低预算阈值下表现不稳定——包括输 出不完整和任务直接拒绝执行等问题——导致其目前 尚不适合用于生产级 agent 编排场景。

技术细节

  • 上下文窗口:1,000,000 tokens(输入)
  • 最大输出:128,000 tokens
  • 视觉分辨率:约 3.75MP,较前版本约 1.15MP 大幅提升
  • SWE-bench Pro:64.3% vs. 53.4%(Opus 4.6)
  • 已移除 API 参数:temperaturetop_ptop_k——传入后返回 HTTP 400
  • Token 膨胀:token izer 变更导致现有 prompt 的 token 用量乘数为 1.0x–1.35x
  • 推理可见性:默认 隐藏;通过 summarized 模式选择性开启

模型行为也已转向严格的字面指令执行。它不再从 prompt 中推断缺失的上下文——这是其一 致性提升的来源,但也意味着此前有效的 prompt 可能在不报错的情 况下悄然降低输出质量。这类回归问题是生产环 境监控中最难被发现的一类。

后续值得关注

  • Claude Myt hos Preview 正式发布:Anthropic 已确认有更强模型正在内部测试中。关 注未来 30 天内的访问权限扩展或公开 benchmark 披露。
  • SDK 与框架兼容性补丁:LangChain、LlamaIndex 及其他默认传入 采样参数的编排层均需更新。请关注其发布追踪器中针对 Opus 4.7 的兼容性标记。
  • 竞品在参数控制上的回应:OpenAI 和 Google DeepMind 目前均保留了采样参数支持。若开发者对参数移除的强 烈反弹持续升温,关注 Anthropic 是否会引入 兼容模式,或通过 system prompt 原语提供等效的确定性控制机制。
  • Task Budget 稳定性修复:当前在低 token 预算下的不稳定表现, 使其不适用于有成本上限的 agent 系统。补丁发 布或明确最低可用预算阈值的 文档更新,将是生产就绪的重要信号。
  • tokenizer 费用影响验证:针对常见 prompt 类 型进行实际 token 膨胀测量的独立 benchmark, 将有助于厘清真实成本影响。目前引 用的 1.0x–1.35x 区间来自单一分析师,更广泛的验证 尚待跟进。