Article Not Found

单日八千万 token 仅花四元 — DeepSeek 磁盘缓存重写大模型推理账本

一位开发者本周抛出一个数字：单日消耗 8900 万 token 仅花 4.39 元，这背后不是简单的价格战，而是 DeepSeek 用磁盘缓存重塑大模型推理的计价逻辑。

这是什么

大模型生成文字时，每说一个字都要参考前文。KV Cache（键值缓存：把历史计算结果存起来复用，避免重复计算）是常用优化，但传统方案只能存在昂贵的 GPU 显存里，无法在不同用户间共享。

DeepSeek 的动作是：用架构创新把缓存体积压缩 5-13 倍，使其小到能存在廉价的磁盘上。只要两个请求的开头（比如系统设定）一样，就能直接从磁盘读取缓存，跳过重复计算。命中缓存时，API 价格降 90%，128K 长文本的首字等待时间从 13 秒缩至 500 毫秒。

我们注意到，这标志着大模型竞争从拼训练算力转向拼推理工程。DeepSeek 用磁盘换显存的方案，为行业构建了新的成本基准。但值得我们关心的是，该机制极度依赖「前缀一致性」：系统提示词哪怕改一个字，后续缓存就全部失效。

有开发团队指出，这种脆弱性会让企业账单不可控——一旦业务需频繁微调提示词，命中率骤降会让成本瞬间反弹；此外，磁盘缓存在高并发下的读写延迟不如显存稳定，对承诺严格响应时间的企业级应用仍是个隐患。

对企业 IT：接入大模型的 API 成本大幅降低，但需重构接口规范，强制开发人员固定系统提示词和历史对话结构，以保住命中率。

对个人职场：写提示词的技能要求在升级，不仅要写对，还要写得「位置稳定」，懂得维护前缀一致性将成为 AI 应用运营的新基本功。

对消费市场：推理成本骤降，意味着依赖超长上下文的 C 端应用（如长期记忆陪伴、长文档分析）终于有了不烧钱的可持续商业模式。