01 触发事件
2026 年 5 月 22 日,TechCrunch 试用了 Google 的 Android XR 原型 AI 眼镜,核心演示是把 Gemini 驱动的翻译、导航和信息提示直接叠加到用户视野里,评价是 “almost there”。
这不是发布会 PPT,也不是纯概念视频,而是媒体上手后的产品信号:Google 至少已经把显示、语音、模型调用和移动端协同做到了“可被外部人感知”的阶段。
我没在内部跑过这套硬件,也没拿到续航、延迟、BOM 成本这些真正决定量产的数字,所以“almost there”更像是产品完成度判断,不是商业可行性判断。
但即便如此,这条新闻仍然够写。
因为问题不在 Google 又做了一个新 gadget,而在 Gemini 正在尝试拿下新的 distribution surface:不是网页,不是 app,不是手机助手,而是你的第一视角。
TechCrunch 的核心信息很简单:Google demo 了一副 Android XR 眼镜,把 Gemini 翻译、导航和其他信息直接覆盖到视野中,且上手体验已经接近“能卖”的边缘
02 这事的真正含义
这事真正重要的地方,不是“AI 眼镜终于快成熟了”。
这才是 Google 在说的事:当模型能力趋同、token 价格继续下滑后,最值钱的资产会重新回到 distribution 与默认入口。
过去两年,大模型行业的主战场看起来像是 benchmark、context window、推理价格和 coding 能力。但这些指标的共同问题是,它们越来越像云计算时代的 CPU 参数:重要,但未必决定利润池归属。
如果眼镜这种设备形态成立,模型公司争夺的就不只是聊天框,而是“谁能在你抬头那一刻先出现”。
这和手机助手不完全一样。
手机时代,通知栏、home screen、搜索框、默认浏览器已经把入口位分得差不多了。眼镜时代,信息层直接覆盖现实世界,默认 assistant 的地位会更强,因为用户不会在走路、开会、旅行时频繁切换多个 agent。
也就是说,switching cost 可能不是来自模型本身,而是来自设备、账户、传感器权限、个人记忆层与实时 context 的绑定。
这对 Google 尤其关键。
OpenAI 的强项是产品速度和模型心智,Anthropic 的强项是 coding 场景渗透,Meta 的强项是开源与硬件野心。但只有 Google 同时握有 Android、Maps、Search、YouTube、Workspace、Gemini 和 XR 操作系统雏形。单看任何一个能力都不稀奇,聚合起来才是 moat。
我可能高估了这种整合价值,因为消费者硬件经常死在最后一公里:佩戴舒适度、隐私焦虑、续航、价格、社交接受度,任何一项都能让“看起来可用”的产品变成小众玩具。
但供给侧上,Google 已经在做一个很清晰的押注:把模型从 app 内调用,推进到 ambient computing。
一旦走到这一步,token 经济学的重点也会变。
今天很多 builder 关心的是输入输出单价、KV cache、batch 折扣、context 长度;明天如果 agent 常驻在眼镜或耳机上,真正昂贵的不是单次问答,而是持续感知、低延迟唤醒、跨模态 context 管理,以及是否能把大部分请求压到本地或边缘端。
那个真正会被定价的,可能是 实时性,不是智能本身。
03 历史类比 / 结构对照
最接近的类比,不是 2013 年 Google Glass,而是 2007 年 iPhone 之前后的那个结构变化。
在 iPhone 之前,手机行业也不是没有功能创新:相机、音乐、浏览器、邮件都存在。但 iPhone 改变的不是单一功能,而是把“计算入口”从键盘和菜单,重写成了触摸屏上的软件分发层。
Android XR 眼镜如果成立,逻辑类似:它不是多一个显示设备,而是把 AI 从“打开 app 才调用”变成“现实世界上随时可叠加的软件层”。
这个结构变化还有点像 2014 年 AWS 之后的云基础设施转折。
当时真正的拐点不是服务器变便宜,而是创业公司第一次可以默认假设“计算资源是按需可得的”。今天如果 AI 眼镜进入消费级阶段,应用开发者会开始默认假设“用户始终带着一个可感知环境、可语音交互、可访问个人账户系统的 agent”。
一旦默认假设变了,产品设计就会重排。
旅游 app 不再只是做 itinerary,而是做实时导览层。 教育 app 不再只是内容库,而是做第一视角提示。 企业软件不再只是 dashboard,而是做现场任务辅助。 搜索不再只是 query-response,而是 context-response。
我没法确认 Android XR 是否真的会像 iPhone 那样成为平台级拐点,这个判断现在还太早。硬件行业最会制造“差一点就成”的幻觉。
但如果从 Grove 式 inflection point 看,这至少是一个值得盯住的 10x 变量:当 AI 从屏幕内服务变成视野内服务,产业边界会重新划线。
04 对 AI builder 意味着什么
对 AI builder 来说,这周和这个月该调整的,不是立刻去做“AI 眼镜 app”,而是重新审视自己的产品是否依赖旧入口。
第一,评估你的产品是“目的地 app”还是“能力 API”。
如果未来的主入口是系统级 assistant,很多独立 app 的前端价值会被吃掉,剩下的价值在后端能力、专有数据、工作流执行和高可靠性 tool use。换句话说,能被 Gemini、ChatGPT、Claude 调用的能力层,比一个孤立 UI 更抗风险。
第二,开始为多模态、低延迟、短交互链路设计。
眼镜场景下,用户不会打长 prompt,也不会盯着复杂界面。交互将更像意图触发 + 一次确认。这意味着适合这个环境的产品,需要极短的 response loop、稳定的函数调用、明确的容错机制,以及更激进的 context 压缩。
第三,重视协议而不是单一模型绑定。
MCP、A2A、各家 agent SDK 的价值,在这种设备形态下会被放大。因为入口一旦变成系统 assistant,谁能更容易被接入、被编排、被权限化调用,谁就更容易留在链路里。我没在 Android XR 的开发栈里实际接过协议层,这里可能判断偏早,但方向大概率没错。
第四,重新算 token economics。
视觉理解、语音转写、导航上下文、连续会话记忆叠加后,请求频次会暴涨。如果你还是按桌面聊天产品的调用频率估算毛利,很可能会错。builder 需要尽早考虑 model routing、本地小模型前置过滤、prompt caching、分层 memory,以及哪些任务必须走昂贵模型,哪些可以边缘化处理。
第五,关注 Google 而不只盯 OpenAI。
过去一年很多团队默认把 OpenAI 当作“产品定义者”,把 Anthropic 当作“开发者生产力定义者”。但如果入口竞争转向设备和系统层,Google 的筹码明显更多。Maps、Android、搜索和 Gemini 的组合,决定它即使模型不是绝对最强,也可能拥有更强的默认分发权。
对 API 消费者来说,这意味着供应商策略要更现实:不要只比较模型分数,要比较谁能进入用户行为链路的最前端。
05 反方观点 / 风险
最强的反方观点其实很直接:AI 眼镜依然可能是个伪命题。
原因也不复杂。
第一,消费者未必想把一个持续感知环境的设备戴在脸上。隐私、尴尬感、审美、续航、发热、处方镜兼容性,任何一个都足够把市场压缩到极客圈层。Google Glass 当年的失败不是偶然,我可能低估了这种社会阻力的持久性。
第二,就算硬件成立,Google 也未必赢。
Google 擅长技术整合,不总擅长把新形态硬件打成 mass-market 产品。Meta 在眼镜上动作更连续,Apple 在硬件体验和生态控制上也仍然危险。OpenAI 如果通过合作伙伴切入设备,同样可能绕过平台短板。
第三,媒体说“almost there”,和消费者愿意为它付 499 美元、999 美元,完全不是一回事。
很多原型产品最大的问题不是功能不可用,而是价值密度不够高。翻译、导航、信息提示听起来都成立,但是否足以支撑日常佩戴频率,这是另一道题。我没看到留存数据,也没看到真实使用时长,所以任何“这是下一代入口”的判断都还带着很大投机成分。
第四,对 builder 来说,过早押注新入口也有成本。
如果你的产品还没跑通 PMF,现在把团队拉去做 XR 适配,可能只是被 platform narrative 带偏。多数团队眼下更现实的事,仍然是控制 inference 成本、提高 retention、把 agent 从 demo 调到可交付。
所以我的主判断不是“AI 眼镜会立刻爆发”。
我的判断更窄,也更重要:Google 这次 demo 的价值,在于它证明了系统级 AI + 可穿戴显示这个组合,已经从科幻叙事进入战略准备期。
一旦这点成立,行业就该提前重排一个问题:
未来三年,谁拥有用户的第一视角入口,谁就更有机会定义下一轮模型分发。