这是什么

IBM 和 Arize AI 的数据显示:90% 的 AI Agent(能自主调用工具完成多步骤任务的 AI 程序)在真实生产场景中会失败。这个数字不是危言耸听,而是当前的工程现实。 引爆讨论的是 Reddit 上一位用户,他花了一个多月测试 Hermes、OpenClaw 等 Agent 工具后,写下粗暴结论:"这是给有大把时间浪费的人准备的。" 他的控诉集中在三点:代码是"氛围编码"(vibe coded,凭感觉写但缺乏工程严谨性),修一个问题带出三个新问题;模型不可靠,像哄小孩一样反复纠正才能勉强完成;成功案例大量造假,"AI 自动化整栋房子"全是机器人刷的假帖。 数学上这不难理解:一个 10 步 Agent,每步 95% 成功率,最终只剩 60%——错误会指数级叠加。

行业怎么看

我们注意到,这次批评的合理部分和情绪部分需要拆开看。 可靠性确实是当前最大的工程难题。长任务中模型会"失忆",前面定好的约束后面悄悄违反;模型会自信地调用不存在的 API 端点,然后继续往下走。根源不是模型不够聪明,而是边界控制没做好。 但把"现阶段局限"等同于"永远没用",是情绪化的判断。2010 年 ImageNet 错误率 26%,有人说神经网络永远不可能实用;五年后降到 3.6%,低于人类。Agent 正处于同样的阶段。 值得我们关心的是反对声音本身:"成功案例造假"的指控需要认真对待。AI 社区确实存在夸大营销,判断标准应该是——有没有具体技术细节、可复现的结果、匹配的技术背景。符合这些标准的案例是真实存在的。 泡沫的本质是时间错位:资本市场用 2 年定价了 10 年才能实现的价值,开发者用生产标准测试了研究级工具,用户用"自动化一切"的期望使用了"辅助特定任务"的产品。每次技术革命都会发生这种错位。

对普通人的影响

对企业 IT:现阶段不要把 Agent 放进容错率为零的核心链路。先在代码 Review、日报整理等任务边界清晰、反馈闭环短的场景试水,积累工程经验。 对个人职场:Agent 适合"指令明确、结果可验证"的工作,不适合"帮我优化整个系统架构"这类开放任务。会用 Agent 的人,优势不在技术,在问题拆解能力。 对消费市场:短期内别指望"AI 自动化一切"的产品,但特定场景——信息抓取整理、文档辅助生成——已有真价值。Gartner 曲线里,泡沫破裂后的低谷恰恰是建设者入场的时机。