台湾宠物科技公司 Tomofun 这周披露一组实践:将 Furbo 宠物摄像头的 AI 推理从 GPU 实例迁移到 AWS 自研芯片 Inferentia2 后,在模型精度不降的前提下,推理成本显著下降。这件事值得关心的不是某款芯片赢了,而是「AI 专用芯片替代 GPU 做推理」终于有了面向消费者的真实商业验证。

这是什么

Furbo 是一款带 AI 能力的宠物摄像头,能实时识别宠物吠叫、奔跑、异常活动并推送提醒。背后技术是视觉-语言模型(VLM,一种同时理解图像和文字的 AI 模型),具体用的是 BLIP 模型。

此前 Tomofun 把推理跑在 GPU 云服务器上。问题在于:宠物摄像头需要几乎始终在线的实时推理,数十万台设备 24 小时传画面,GPU 算力虽强但为这种持续低负载场景付费,性价比很差。

解决方案是迁移到 AWS Inferentia2——亚马逊自研的 AI 推理专用芯片,设计目标就是「用更少的钱跑推理」。Tomofun 用 Neuron SDK 编译了 BLIP 模型使其在 Inferentia2 上运行,上层 API 和下游告警逻辑基本不用改。

行业怎么看

我们注意到一个趋势正在加速:推理侧的芯片选择从「GPU 唯一解」走向「按场景选芯片」。AWS Inferentia2、Google TPU、Groq 等专用推理芯片都在争夺「训练用 GPU、推理用专用芯片」这个叙事。Tomofun 的案例给出了一个有说服力的佐证——to C 产品在成本压力下确实会迁移。

但反对声音同样存在。有行业工程师指出,专用芯片的软件生态远不如 GPU 成熟——模型迁移需要适配编译,遇到不支持的算子(模型计算的基本单元)还得等芯片厂商更新;且 Inferentia2 主要支持 PyTorch 生态,其他框架支持有限。降本的前提是技术栈恰好匹配,否则迁移成本可能吃掉节省的推理费用。

对普通人的影响

对企业 IT:如果公司有大量「持续运行、非峰值爆发」的 AI 推理负载(如视频监控、质检、客服语音),值得重新评估是否所有推理都必须跑在 GPU 上。

对个人职场:AI 部署工程师需要开始熟悉多芯片架构——只会调 GPU 参数的技能窗口正在收窄。

对消费市场:推理成本下降意味着更多硬件产品能负担得起「AI 功能常驻」,宠物摄像头只是第一站,家用安防、老人看护等领域会紧随其后。