Claude Opus 4 在《艾尔登法环》中受挫：对 AGI 宣称的现实检验

发生了什么

r/LocalLLaMA 社区的一名开发者尝试使用 Claude Opus 4（通过 Anthropic 的 max plan）配合 Claude Code 游玩《艾尔登法环》。该模型成功完成了角色创建，却未能走出开场教堂——这一任务已有数百万人类玩家完成。该帖子直接挑战了 Jensen Huang 和 Marc Andreessen 近期关于 AGI 实际上已经实现的言论。

为何重要

这是一个具体且可复现的失败案例，穿透了营销噪音。根据定义，AGI 需要超越训练数据的通用推理能力。《艾尔登法环》的开场区域涉及空间推理、试错式的运动反馈循环以及自适应问题解决能力，而当前的 LLM 均无法可靠处理这些任务。

Claude Opus 4 是目前商业可用模型中能力最强的之一
在一个毫无歧义的任务（走出房间）上失败，暴露了基准测试表现与现实世界泛化能力之间的差距
构建 AI 驱动产品的独立开发者应校准预期：当前模型擅长模式匹配任务，而非新颖的物理或空间推理

亚太视角

中国和东南亚的开发者正面临来自投资者和客户的巨大压力，后者常引用 AGI 相关新闻作为制定激进 AI 产品时间表的理由。此测试案例可作为反驳不切实际范围要求的有力证据。在深圳、新加坡和雅加达构建用于物流、游戏或机器人的 AI Agents 的团队应注意：即使是 Claude Opus 4 这样的前沿模型也无法处理基本的闭环传感器运动任务。Qwen2.5 和 DeepSeek-V3 等本地替代方案也面临同样的上限。请根据 LLM 实际擅长的领域（文本、代码、检索）来规划架构，而非基于 AGI 级别的自主性。

本周行动项

从当前路线图里挑选一个假设具备文本之外自主推理能力的 AI 功能。使用您的实际模型（Claude、GPT-4o 或本地部署的 Qwen）进行 30 分钟的压力测试。记录其失败之处。利用该失败日志，在团队或客户陷入死胡同两个冲刺周期之前，重新调整项目范围。

Claude Opus 4 在《艾尔登法环》中受挫：对 AGI 宣称的现实检验

发生了什么

为何重要

亚太视角

本周行动项

相关推荐

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

The One Thing You Must Do with Claude Code: Sign a Contract ( CLAUDE.md)

Pro Users Locked Out of Claude Code Unless They Pay $100/ Mo for Max

Anthropic's Claude Code Source Leak : 510 K Lines Reveal How It Saves You Money

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?