KV缓存

找到 2 篇关于此标签的文章

TurboQuantKV缓存

KV 缓存压缩出现独立评估工具 — 推理优化的重心正转向基础设施

KV 缓存是大模型长文本推理的显存大户，现在有人为 TurboQuant 压缩方案写了独立评估工具。这意味着推理优化正从'能不能跑'走向'怎么跑得稳'。

Microsoft大模型推理

微软让大模型推理提速4倍：AI行业下半场是抠基建成本

微软在系统顶会展示多项AI基建成果，包括让大模型推理吞吐量提升4倍的缓存共享技术。这说明AI竞争正从卷参数转向拼基础设施效率，降本将成主旋律。