投机解码

找到 1 篇关于此标签的文章

Google 让 Gemma 4 生成速度翻倍 — 小模型带大模型跑的"投机解码"成主流

Google 发布 Gemma 4 系列 MTP 模型，通过"投机解码"技术实现最高 2 倍加速且输出质量不变。这意味着本地部署大模型的实用性显著提升，算力门槛进一步降低。