两张华硕 Spark 显卡跑大模型只慢一点 — AI 推理不再是昂贵硬件的专属

Reddit 上一项测试显示，售价仅三分之一、功耗仅四分之一的华硕 Spark 集群跑大模型，速度只比两万美元的 RTX 6000 慢不到 5 倍——AI 推理的性价比拐点已经出现。

这是什么

有开发者将 MiniMax-M2.7（一款开源中英双语大模型）进行 4-bit 量化（一种压缩模型体积、降低计算需求的技术），分别放在两套硬件上运行：一套是两块 NVIDIA RTX 6000 显卡（约 2 万美元，功耗 1450W），另一套是两块华硕 Spark (Ascent GX10) 显卡（约 7000 美元，功耗 365W）。结果让人意外：RTX 6000 在提示词处理上快 2.7 倍、文本生成快 4.88 倍，但考虑到 2.9 倍的价格差和 4 倍的功耗差，Spark 集群的性价比极具吸引力。折算到每生成 100 万 token 的耗电量，两者几乎打平。不过，Spark 在闲置时 100W 的功耗偏高，且在处理高并发请求时，受限于 KV-cache（大模型推理时缓存上下文的内存机制）容量，性能会显著下降。

行业怎么看

我们注意到，这项测试印证了一个判断：AI 推理硬件正在加速分化。对于不需要极高实时性的批处理任务，昂贵的高端显卡不再是唯一解，廉价加速器足以胜任。但风险同样明显：廉价硬件在应对高并发、长上下文的真实业务场景时捉襟见肘。测试中，Spark 集群在并行处理两个长文本请求时，KV-cache 容量吃紧导致请求限流，性能暴跌。这意味着企业若为省钱选择低配硬件，可能因响应延迟和吞吐量瓶颈，反而损失用户体验，甚至抵消硬件节省的成本。

对普通人的影响

对企业 IT：部署内部 AI 工具不再只有 Nvidia 一个选项，低并发、非实时的内部知识库场景用便宜硬件能省下大笔预算。

对个人职场：本地运行大模型的门槛正在实质性地降低，不到一万块的硬件集群已能跑起顶级开源模型，个人开发者有了更多试错空间。

对消费市场：未来的桌面级 AI 主机将迎来更多芯片选择，功耗与散热控制会比单纯的算力堆叠更受厂商重视。

两张华硕 Spark 显卡跑大模型只慢一点 — AI 推理不再是昂贵硬件的专属

这是什么

行业怎么看

对普通人的影响

相关推荐

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

Mistral 本地版文件损坏已修复 — 开源模型的品控盲区比你想的大

Ollama 让 Mac 一行命令跑本地大模型 — 个人电脑正成为 AI 新入口

Qwen 3.6 本地替代 Copilot — 零 API 费，但新手别碰

开发者花 5000 美元组装本地 AI 设备，算力去云端化正成为个人投资新选项

Simon Willison 在手机上写完博客功能 — AI 辅助编程让个人项目开发门槛实质性下移