Reddit 上一项测试显示,售价仅三分之一、功耗仅四分之一的华硕 Spark 集群跑大模型,速度只比两万美元的 RTX 6000 慢不到 5 倍——AI 推理的性价比拐点已经出现。
这是什么
有开发者将 MiniMax-M2.7(一款开源中英双语大模型)进行 4-bit 量化(一种压缩模型体积、降低计算需求的技术),分别放在两套硬件上运行:一套是两块 NVIDIA RTX 6000 显卡(约 2 万美元,功耗 1450W),另一套是两块华硕 Spark (Ascent GX10) 显卡(约 7000 美元,功耗 365W)。结果让人意外:RTX 6000 在提示词处理上快 2.7 倍、文本生成快 4.88 倍,但考虑到 2.9 倍的价格差和 4 倍的功耗差,Spark 集群的性价比极具吸引力。折算到每生成 100 万 token 的耗电量,两者几乎打平。不过,Spark 在闲置时 100W 的功耗偏高,且在处理高并发请求时,受限于 KV-cache(大模型推理时缓存上下文的内存机制)容量,性能会显著下降。
行业怎么看
我们注意到,这项测试印证了一个判断:AI 推理硬件正在加速分化。对于不需要极高实时性的批处理任务,昂贵的高端显卡不再是唯一解,廉价加速器足以胜任。但风险同样明显:廉价硬件在应对高并发、长上下文的真实业务场景时捉襟见肘。测试中,Spark 集群在并行处理两个长文本请求时,KV-cache 容量吃紧导致请求限流,性能暴跌。这意味着企业若为省钱选择低配硬件,可能因响应延迟和吞吐量瓶颈,反而损失用户体验,甚至抵消硬件节省的成本。
对普通人的影响
对企业 IT:部署内部 AI 工具不再只有 Nvidia 一个选项,低并发、非实时的内部知识库场景用便宜硬件能省下大笔预算。
对个人职场:本地运行大模型的门槛正在实质性地降低,不到一万块的硬件集群已能跑起顶级开源模型,个人开发者有了更多试错空间。
对消费市场:未来的桌面级 AI 主机将迎来更多芯片选择,功耗与散热控制会比单纯的算力堆叠更受厂商重视。