Pocket TTS 手机端跑出 100ms 延迟 — 开源语音合成跨过"能用"的门槛

Pocket TTS 多语言版在中端手机芯片 Helio G99 上跑出 100ms 延迟、2.5 倍实时生成速度 — 开源文字转语音终于跨过了移动端可用的门槛。

这是什么

Pocket TTS 是一个开源的文字转语音（TTS，Text-to-Speech）项目，本周发布了多语言模型，覆盖英语、法语、西班牙语、德语、意大利语和葡萄牙语六种语言，每种语言对应独立模型。

值得关注的是社区开发者紧随其后的工程适配：基于 KevinAHM 的 ONNX（一种跨平台模型格式）导出器和 VolgaGerm 的 C++ 优化，对模型节点做了选择性 int8 量化（将部分计算从高精度降到 8 位整数，换取速度），实测结果相当亮眼 — AMD Ryzen 9 7950X 桌面端延迟约 30ms、生成速度达 13 倍实时；联发科 Helio G99 手机端延迟约 100ms、2.5 倍实时。开发者还提供了 Unity 引擎的示例运行器和 Android 测试版。

行业怎么看

我们注意到两个信号：第一，开源 TTS 的推理速度已经进入实用区间，100ms 延迟对人耳而言几乎无感；第二，ONNX 导出 + int8 量化的组合拳说明「跑得动」不再依赖高端显卡，中端手机芯片就能胜任。

但这并不意味着云端 TTS 会很快被替代。每语言独立模型意味着通用多语言能力仍有限，中文、日语等更复杂的语系尚未覆盖；音色表现力和自然度与 ElevenLabs 等商业方案仍有差距。Reddit 社区也有人指出，选择性量化虽然快，但部分节点的精度损失在长文本生成中可能产生可感知的质量下降。这是本地小模型绕不开的取舍。

对普通人的影响

对企业 IT：本地 TTS 方案减少语音数据上云的合规风险，对金融、医疗等敏感行业有实际意义，但六语言覆盖面仍窄，短期内更适合欧美市场。

对个人职场：内容创作者获得了一个零成本的本地配音工具链，短视频、播客的后期门槛继续下探，但音色单一仍是硬伤。

对消费市场：手机端 100ms 延迟意味着离线语音助手在技术上已经可行，接下来看谁先把这个能力装进产品。

Pocket TTS 手机端跑出 100ms 延迟 — 开源语音合成跨过"能用"的门槛

这是什么

行业怎么看

对普通人的影响

相关推荐

DolphinGemma 迟迟未发，开源模型热度高但交付正在变得更难

16GB 显存已够本地跑 Whisper，大模型语音转写开始从云端回到个人电脑

一位开发者把 Python 改写给模型看，AI 编程开始补“输入层”短板

2.8万元摸索出一套AI编程法，真正稀缺的开始不是代码而是文档

博通跌的不是15%，是预期

Endava 把软件交付改成 AI 代理协作流，外包行业开始从拼人力转向拼流程