事件经过

根据 Simon Willison 于 2026 年 4 月 10 日发布的一篇文章,OpenAI 的 ChatGPT Advanced Voice Mode 运行在一个知识截止日期为 2024 年 4 月的 GPT-4o 时代模型上——而非该公司目前的前沿模型。Willison 通过直接向语音界面发出查询,得出了这一结论,并将其标注为"对许多人来说并不显而易见",因为人们通常会直觉地认为,一个对话式界面应该调用当前可用的最强模型。

这一观察的起因,是 Andrej Karpathy 发布的一条言辞直接的帖子:OpenAI 免费的 Advanced Voice Mode "在你刷 Instagram Reels 时会搞砸最简单的问题",而该公司付费的 Codex 模型则"能持续工作一个小时,系统性地重构整个代码库,或在计算机系统中发现并利用漏洞"。

为何值得关注

OpenAI 面向消费者的语音产品与其面向开发者的 API 产品之间的能力差距,如今已大到足以让仅通过语音进行交互的用户,对 AI 能力形成双向的错误认知:他们可能低估了当前前沿模型在代码和推理任务上的真实水平,同时也可能高估了语音界面能够稳定交付的实际效果。

Karpathy 指出了编程和智能体(agentic)产品线之所以能够领跑的两个结构性原因:

  • 可验证的奖励函数:代码领域提供二元反馈信号——单元测试要么通过,要么失败——使其天然适合强化学习(Reinforcement Learning)。而自然对话和语音质量则极难进行自动化评分。
  • B2B 营收集中效应:最高价值的企业合同集中在编程助手和智能体工作流领域,这使得不成比例的大量工程人力资源被投入到这些产品中。

这形成了一种复合动态:最容易通过强化学习进行训练的模态,恰恰也是拥有最大付费客户群的模态,从而进一步加速了它们相对于消费者语音功能的迭代速度。Advanced Voice Mode 在 Willison 看来"有些像是被遗忘的孤儿",在这场优先级博弈中似乎处于下风——至少目前如此。

对于正在评估 AI 供应商能力的 CTO 而言,这一现象的实际影响在于:通过语音界面进行的产品演示,可能系统性地低估了底层 API 的真实能力。采购决策和内部能力评估应明确指定所测试的具体模型端点(model endpoint),而非仅以界面层作为参考依据。

技术细节

OpenAI 的实时语音处理管线采用原生多模态模型,直接对音频进行编码和解码,而非将"语音转文字 → 大语言模型 → 文字转语音"串联成链式流程。这一架构降低了延迟并保留了韵律信息,但同时也意味着经过语音优化的模型,是一个有别于纯文本或具备视觉能力的前沿检查点(checkpoint)的独立产物。

向语音界面查询其知识截止日期,返回结果为 2024 年 4 月——与最初的 GPT-4o 发布窗口一致。相比之下,OpenAI 当前的文本 API 所暴露的模型,其知识截止日期(依版本不同)在 2025 年初至年中之间。两者之间的差距,至少是 12 个月的训练数据,以及未知数量的训练后对齐(post-training alignment)迭代周期。

Karpathy 的论述表明,这一差距不仅仅体现在知识截止日期上,更关乎 RLHF 信号质量的本质差异:奖励函数难以精确定义的任务(如语音自然度、对话连贯性),在每个训练周期内所获得的强化学习驱动的提升,远不及那些拥有自动化验证器的任务(如代码执行、测试套件、形式化证明)。

后续值得关注的动向

  • OpenAI 语音模型的更新:目前尚无将 Advanced Voice Mode 升级至 2024 年 4 月之后检查点的公开路线图承诺。可在未来 30 天内关注 OpenAI 平台状态页面上的任何更新日志条目或模型卡(model card)变动。
  • Google 的竞争压力:Google 的 Gemini Live 以 Gemini 2.0 Flash 作为语音骨干——一个训练时间更近的模型。若 OpenAI 的语音差距成为 Google 可见的营销差异化卖点,可能会加速 OpenAI 内部的优先级调整。
  • Karpathy 更宏观的论断:他将"适合强化学习的领域"视为能力提升核心驱动力的论述框架,对于预判哪些产品品类将出现下一次跃迁具有重要参考意义。可持续关注智能体和代码执行基准测试(SWE-bench、Aider 排行榜),观察其与语音及创意写作评测之间是否继续分化。
  • 企业级语音采用:若 B2B 营收驱动论成立,企业级语音助手应用场景——如呼叫中心自动化、会议摘要生成——或许最终能够产生足够可验证的信号,从而缩小训练差距。2026 年第二季度该领域的厂商动态,将是战略意图的重要风向标。