大模型推理

找到 3 篇关于此标签的文章

Microsoft大模型推理

微软让大模型推理提速4倍：AI行业下半场是抠基建成本

微软在系统顶会展示多项AI基建成果，包括让大模型推理吞吐量提升4倍的缓存共享技术。这说明AI竞争正从卷参数转向拼基础设施效率，降本将成主旋律。

DeepSeekKV Cache

单日八千万 token 仅花四元 — DeepSeek 磁盘缓存重写大模型推理账本

DeepSeek 通过独创架构实现磁盘级缓存，让 API 成本骤降 10 倍。这不仅是低价竞争，更是大模型推理从拼算力转向拼工程优化的关键信号。

NvidiaDGX Spark

16台Nvidia超算拼成集群跑通大模型 — 企业自建算力的焦点正转向显存

Reddit用户用16台Nvidia DGX Spark搭成集群跑通434GB大模型，验证了统一内存的实用价值。大模型推理瓶颈正从算力转向显存，企业自建本地算力有了新思路。