一位开发者本周抛出一个数字:单日消耗 8900 万 token 仅花 4.39 元,这背后不是简单的价格战,而是 DeepSeek 用磁盘缓存重塑大模型推理的计价逻辑。

这是什么

大模型生成文字时,每说一个字都要参考前文。KV Cache(键值缓存:把历史计算结果存起来复用,避免重复计算)是常用优化,但传统方案只能存在昂贵的 GPU 显存里,无法在不同用户间共享。

DeepSeek 的动作是:用架构创新把缓存体积压缩 5-13 倍,使其小到能存在廉价的磁盘上。只要两个请求的开头(比如系统设定)一样,就能直接从磁盘读取缓存,跳过重复计算。命中缓存时,API 价格降 90%,128K 长文本的首字等待时间从 13 秒缩至 500 毫秒。

行业怎么看

我们注意到,这标志着大模型竞争从拼训练算力转向拼推理工程。DeepSeek 用磁盘换显存的方案,为行业构建了新的成本基准。但值得我们关心的是,该机制极度依赖「前缀一致性」:系统提示词哪怕改一个字,后续缓存就全部失效。

有开发团队指出,这种脆弱性会让企业账单不可控——一旦业务需频繁微调提示词,命中率骤降会让成本瞬间反弹;此外,磁盘缓存在高并发下的读写延迟不如显存稳定,对承诺严格响应时间的企业级应用仍是个隐患。

对普通人的影响

对企业 IT:接入大模型的 API 成本大幅降低,但需重构接口规范,强制开发人员固定系统提示词和历史对话结构,以保住命中率。

对个人职场:写提示词的技能要求在升级,不仅要写对,还要写得「位置稳定」,懂得维护前缀一致性将成为 AI 应用运营的新基本功。

对消费市场:推理成本骤降,意味着依赖超长上下文的 C 端应用(如长期记忆陪伴、长文档分析)终于有了不烧钱的可持续商业模式。