Article Not Found

01 触发事件

本周，星巴克正式终止其在北美门店使用的 AI 库存自动盘点工具。

已知原文信息很简单，但已经足够关键：这套系统通过平板拍照，自动统计牛奶、糖浆等门店物料库存；上线 9 个月后，因为频繁出错，被正式叫停。

真正重要的数字不是“AI”两个字，而是“北美门店”“9 个月”“频繁出错”。

这意味着它不是一个停留在 PoC 的 demo，也不是一个还没推开的试点，而是已经进入真实门店 workflow，然后被业务侧判定不值得继续承受。

我没在内部跑过这套系统，所以不能判断它具体是 CV 模型识别精度不够，还是门店拍摄流程、光照、遮挡、容器规格变化、SKU 映射和回传系统集成出了问题。

但有一点很清楚：星巴克没有因为“AI 是未来”而继续容忍它。

频繁出错，上线 9 个月后被叫停

这句 callout 的分量，远大于一条普通产品下线新闻。

因为 enterprise software 可以容忍一点体验差，consumer app 可以容忍一点 bug，但门店运营系统不能容忍会把人重新拖回手工盘点的自动化。

02 这事的真正含义

表面上看，这是“星巴克的一个 AI 工具做砸了”。

这不是重点。

重点在于，physical-world AI 在高频、低毛利、低容错的线下场景里，仍然没有穿过 reliability threshold。

很多人谈 AI 落地，习惯把“能不能识别出来”当成问题。

但在零售门店，问题从来不只是识别。

问题在整个链条：

店员是否会按规范拍照
货架、冰箱、容器是否标准化
不同门店的 lighting、摆放密度、遮挡程度是否可控
模型输出能否直接映射成可执行库存数据
错误发生后，谁来兜底
兜底动作会不会比原来的人工流程更慢

这才是 AI 应用层最容易被低估的部分：模型 accuracy 不是产品 truth，workflow reliability 才是产品 truth。

如果一个盘点系统在 80% 场景里节省时间，但在 20% 场景里要求员工返工、复拍、手动纠错，门店 manager 最终感知到的就不是 automation，而是 friction。

那个真正会被定价的，不是“单次识别成本”，而是“错误一次对门店节奏造成的打断成本”。

我可能误判的一点是，星巴克下线也可能有组织层面的原因，比如门店培训不足、系统 rollout 过快、与既有 ERP/采购流程耦合太深，而不完全是模型能力问题。

但即便如此，结论也没变：AI 在企业内被采购，靠的是 demo；AI 在企业内被续费，靠的是稳定嵌入流程。

这正是现在很多 AI startup 最危险的误区。

在 SaaS 世界里，卖给总部就够了。

在 operational AI 世界里，总部签单不代表门店 adoption，门店 adoption 不代表持续使用，持续使用也不代表业务信任。

最后拍板的，往往不是 CIO，而是前线员工有没有绕开它。

03 历史类比 / 结构对照

我更愿意把这件事类比为早期企业移动化，不是类比 2022 年 ChatGPT。

2007 年 iPhone 的意义，是把计算平台带到个人手里。

但直到 2010 年代中期，企业才真正理解：移动 app 不是把 PC 流程搬到手机上，而是重做 interaction model、权限结构、通知逻辑和现场操作路径。

今天的门店 AI 也一样。

很多公司以为，给现场员工一个 camera + model，就等于把“看库存”这件事自动化了。

其实不是。

这更像 2014 年 AWS 之后的一波错觉：大家以为有了 cloud，企业 IT 就会自动转型；后来才发现，真正的迁移成本在组织、架构、流程和 ownership。

星巴克这件事暴露的是同一个结构性矛盾：foundation model 或 CV model 的能力进步是连续的，但企业 workflow 的容错阈值是离散的。

没跨过去，就是没跨过去。

95 分和 99 分，在 benchmark 上看差距不大。

但在线下盘点、支付风控、医疗文档、合规审阅这类任务里，可能就是“可用”和“不可用”的差别。

这也是为什么很多 AI infra 投资人和应用创业者会高估 adoption 速度。

技术曲线是平滑的。

商业曲线不是。

我没见过这套工具的实际 error taxonomy，所以不能断言它的失败一定来自最后 2% 的 accuracy gap。也可能是前端设计、异常处理和 human-in-the-loop 没设计好。

但历史经验通常站在一个更冷的结论那边：凡是需要前线员工额外理解、额外配合、额外纠错的 AI 系统，都会被实际 workflow 惩罚。

04 对 AI builder 意味着什么

如果你在做 AI 应用，这周真正该调整的，不是对模型能力的看法，而是对交付单位的定义。

你卖的不是识别、总结、生成。你卖的是一个被接住的结果。

这会直接影响产品、定价和 go-to-market。

第一，别再用“替代人工”写 PRD，先用“减少复核时间”写。

尤其是线下、供应链、客服质检、财务审核这类场景，先把 AI 定义成 copilot 而不是 autopilot，通常更容易穿过 adoption 门槛。

第二，重新计算你的 ROI 模型。

不要只算 token cost，不要只算 inference latency。

要把以下几项一起算进去：

人工复核率
异常 case 占比
二次录入成本
培训成本
系统切换带来的 switching cost
错误导致的业务损失或信任折价

很多 AI startup 看起来 unit economics 很漂亮，是因为把“人工兜底”藏进客户组织里了。

这不是真毛利。

这是把成本 externalize 给客户。

第三，如果你的产品要进入 physical workflow，优先做“结构化约束”，而不是盲目追求更强模型。

比如固定拍摄角度、限定容器规格、减少 SKU 变体、做强输入校验、引导用户补拍，而不是期待模型 magic 解决一切。

这听起来不性感，但 moat 往往就在这里。

不是模型 moat。

是 workflow moat。

第四，toB 销售上要更警惕“总部买单，基层弃用”。

对 AI builder 来说，最该追踪的不是签约门店数，而是：

周活跃使用率
人工 override 比例
完成一次任务的总时长
错误后回退到旧流程的频率
续费前 90 天的 usage retention

如果没有这些数据，ARR 可能只是暂存，不是收入质量。

第五，对做 model access、routing、AI infra 的团队也是提醒。

不是每个应用层失败都能被归因于模型不够强，因此也不是每个需求都值得用更贵的模型去堆。

有时候，GPT-5 级别能力不是答案，better UX、narrower scope、hard-coded guardrail 才是答案。

问题不在 token，而在 task design。

05 反方观点 / 风险

我刚才的判断，最容易错在两个地方。

第一，我可能高估了“这是一种结构性失败”，低估了“这只是一个糟糕执行”。

原文没有提供供应商名字、模型架构、准确率、部署范围、是否分阶段 rollout，也没有说清楚是识别错误、数据同步错误，还是员工使用错误。

如果这是一个特定 vendor 的实现问题，而非零售 AI 的普遍瓶颈，那么把它上升到行业判断，会过度解读。

第二，我也可能低估了未来 12 到 24 个月多模态模型的改善速度。

如果更强的视觉模型、on-device inference、低延迟 edge deployment 和更好的 prompt caching/本地校验机制结合，今天导致失败的 friction，可能会迅速下降。

届时，星巴克这次叫停未必是“这条路不通”，而只是“第一代产品太早了”。

但即便站在反方，我还是会保留一个偏冷的结论：企业不会因为模型进步就自动重写流程，只有当 AI 让现有流程变得更稳、更快、更少争议时，它才配被称为基础设施。

这才是这条新闻真正值得 AI builder 记住的地方。

不是“又一个 AI 项目翻车”。

而是：现实世界里，最贵的不是 inference，最贵的是不被信任的自动化。

星巴克叫停AI盘点，不是小失误

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

Related Reading

Open AI's IP O Regulatory V angu ard: Governance Under the Microscope

Nvidia Isn 't Selling Chips Anymore— It's Buying the Ecosystem

What Microsoft Feared Most Wasn 't Losing Money

AI Is Eating S aaS, But What 's Really Getting More Expensive Is the Organization

AI Video Agents Are Earning a Window , Not a Mo at

Furbo Ditches GPU for AWS Inferentia2: A Real-World AI Inference Cost Win