ChatGPT 语音模式运行在 2024 年 4 月版本的 GPT-4o 模型上

事件经过

根据 Simon Willison 于 2026 年 4 月 10 日发布的一篇文章，OpenAI 的 ChatGPT Advanced Voice Mode 运行在一个知识截止日期为 2024 年 4 月的 GPT-4o 时代模型上——而非该公司目前的前沿模型。Willison 通过直接向语音界面发出查询，得出了这一结论，并将其标注为"对许多人来说并不显而易见"，因为人们通常会直觉地认为，一个对话式界面应该调用当前可用的最强模型。

这一观察的起因，是 Andrej Karpathy 发布的一条言辞直接的帖子：OpenAI 免费的 Advanced Voice Mode "在你刷 Instagram Reels 时会搞砸最简单的问题"，而该公司付费的 Codex 模型则"能持续工作一个小时，系统性地重构整个代码库，或在计算机系统中发现并利用漏洞"。

为何值得关注

OpenAI 面向消费者的语音产品与其面向开发者的 API 产品之间的能力差距，如今已大到足以让仅通过语音进行交互的用户，对 AI 能力形成双向的错误认知：他们可能低估了当前前沿模型在代码和推理任务上的真实水平，同时也可能高估了语音界面能够稳定交付的实际效果。

Karpathy 指出了编程和智能体（agentic）产品线之所以能够领跑的两个结构性原因：

可验证的奖励函数：代码领域提供二元反馈信号——单元测试要么通过，要么失败——使其天然适合强化学习（Reinforcement Learning）。而自然对话和语音质量则极难进行自动化评分。
B2B 营收集中效应：最高价值的企业合同集中在编程助手和智能体工作流领域，这使得不成比例的大量工程人力资源被投入到这些产品中。

这形成了一种复合动态：最容易通过强化学习进行训练的模态，恰恰也是拥有最大付费客户群的模态，从而进一步加速了它们相对于消费者语音功能的迭代速度。Advanced Voice Mode 在 Willison 看来"有些像是被遗忘的孤儿"，在这场优先级博弈中似乎处于下风——至少目前如此。

对于正在评估 AI 供应商能力的 CTO 而言，这一现象的实际影响在于：通过语音界面进行的产品演示，可能系统性地低估了底层 API 的真实能力。采购决策和内部能力评估应明确指定所测试的具体模型端点（model endpoint），而非仅以界面层作为参考依据。

技术细节

OpenAI 的实时语音处理管线采用原生多模态模型，直接对音频进行编码和解码，而非将"语音转文字 → 大语言模型 → 文字转语音"串联成链式流程。这一架构降低了延迟并保留了韵律信息，但同时也意味着经过语音优化的模型，是一个有别于纯文本或具备视觉能力的前沿检查点（checkpoint）的独立产物。

向语音界面查询其知识截止日期，返回结果为 2024 年 4 月——与最初的 GPT-4o 发布窗口一致。相比之下，OpenAI 当前的文本 API 所暴露的模型，其知识截止日期（依版本不同）在 2025 年初至年中之间。两者之间的差距，至少是 12 个月的训练数据，以及未知数量的训练后对齐（post-training alignment）迭代周期。

Karpathy 的论述表明，这一差距不仅仅体现在知识截止日期上，更关乎 RLHF 信号质量的本质差异：奖励函数难以精确定义的任务（如语音自然度、对话连贯性），在每个训练周期内所获得的强化学习驱动的提升，远不及那些拥有自动化验证器的任务（如代码执行、测试套件、形式化证明）。

后续值得关注的动向

OpenAI 语音模型的更新：目前尚无将 Advanced Voice Mode 升级至 2024 年 4 月之后检查点的公开路线图承诺。可在未来 30 天内关注 OpenAI 平台状态页面上的任何更新日志条目或模型卡（model card）变动。
Google 的竞争压力：Google 的 Gemini Live 以 Gemini 2.0 Flash 作为语音骨干——一个训练时间更近的模型。若 OpenAI 的语音差距成为 Google 可见的营销差异化卖点，可能会加速 OpenAI 内部的优先级调整。
Karpathy 更宏观的论断：他将"适合强化学习的领域"视为能力提升核心驱动力的论述框架，对于预判哪些产品品类将出现下一次跃迁具有重要参考意义。可持续关注智能体和代码执行基准测试（SWE-bench、Aider 排行榜），观察其与语音及创意写作评测之间是否继续分化。
企业级语音采用：若 B2B 营收驱动论成立，企业级语音助手应用场景——如呼叫中心自动化、会议摘要生成——或许最终能够产生足够可验证的信号，从而缩小训练差距。2026 年第二季度该领域的厂商动态，将是战略意图的重要风向标。

ChatGPT 语音模式运行在 2024 年 4 月版本的 GPT-4o 模型上

事件经过

为何值得关注

技术细节

后续值得关注的动向

相关推荐

Open AI's New Image Tool Holds Character Faces Across 8 Panels

ChatGPT Images 2.0 Drops : Out p aces Google Nano Banana, Design Work Is Changing

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

It 's a Big One