发生了什么
r/LocalLLaMA 社区的一名开发者尝试使用 Claude Opus 4(通过 Anthropic 的 max plan)配合 Claude Code 游玩《艾尔登法环》。该模型成功完成了角色创建,却未能走出开场教堂——这一任务已有数百万人类玩家完成。该帖子直接挑战了 Jensen Huang 和 Marc Andreessen 近期关于 AGI 实际上已经实现的言论。
为何重要
这是一个具体且可复现的失败案例,穿透了营销噪音。根据定义,AGI 需要超越训练数据的通用推理能力。《艾尔登法环》的开场区域涉及空间推理、试错式的运动反馈循环以及自适应问题解决能力,而当前的 LLM 均无法可靠处理这些任务。
- Claude Opus 4 是目前商业可用模型中能力最强的之一
- 在一个毫无歧义的任务(走出房间)上失败,暴露了基准测试表现与现实世界泛化能力之间的差距
- 构建 AI 驱动产品的独立开发者应校准预期:当前模型擅长模式匹配任务,而非新颖的物理或空间推理
亚太视角
中国和东南亚的开发者正面临来自投资者和客户的巨大压力,后者常引用 AGI 相关新闻作为制定激进 AI 产品时间表的理由。此测试案例可作为反驳不切实际范围要求的有力证据。在深圳、新加坡和雅加达构建用于物流、游戏或机器人的 AI Agents 的团队应注意:即使是 Claude Opus 4 这样的前沿模型也无法处理基本的闭环传感器运动任务。Qwen2.5 和 DeepSeek-V3 等本地替代方案也面临同样的上限。请根据 LLM 实际擅长的领域(文本、代码、检索)来规划架构,而非基于 AGI 级别的自主性。
本周行动项
从当前路线图里挑选一个假设具备文本之外自主推理能力的 AI 功能。使用您的实际模型(Claude、GPT-4o 或本地部署的 Qwen)进行 30 分钟的压力测试。记录其失败之处。利用该失败日志,在团队或客户陷入死胡同两个冲刺周期之前,重新调整项目范围。