本地部署122B大模型跑出198字/秒：算力租赁商的末日倒计时

现象与商业本质

一位工程师用两张RTX PRO 6000 Blackwell显卡（每张96GB显存，市场价约3.5万人民币/张），在本地服务器上将Qwen3.5-122B大模型的推理速度跑到了198 tok/s（每秒198个字）。三轮重复验证：197、200、198，并用curl命令交叉确认——2000 token在12.7秒内生成完毕。关键数据：单套硬件总成本约15-20万人民币，却能复现月费数万元的企业级AI API服务。按调用量收费的云AI租赁模式，成本护城河正在塌陷。

维度类比：集装箱消灭散货码头

1956年，麦克莱恩发明集装箱之前，散货装卸工靠信息不对称和操作壁垒垄断港口利润。集装箱出现后，装卸成本从每吨5.83美元跌至0.16美元，散货码头十年内消亡。

今天的逻辑完全相同：云AI厂商（阿里云、百度智能云、Azure）靠算力黑箱+按token计费构建收费护城河。而本次验证证明，PCIe拓扑优化、SGLang b12x MoE内核、NEXTN投机解码三项工程手段叠加，可让推理速度提升65%以上 ——原来必须租用的"集装箱吊机"，正在变成任何人都能买到的标准件。类比成立的核心：技术壁垒变成了工程手册，定价权随之转移。

行业洗牌与终局推演

用Andrew Grove的"战略转折点"框架拆解：

12个月内出局者：纯粹倒卖API调用的"AI集成商"——无自有算力、无模型调优能力，只赚差价。一旦客户发现自建成本低于年费，合同不会续签。
18-24个月承压者：中小规模云AI API供应商。大客户（年调用额超50万元）将率先迁移本地部署，留下的是对运维能力为零的长尾客户——ARPU（每用户收入）断崖式下跌。
胜出者：两类——①能提供"交钥匙"本地部署服务的系统集成商（卖硬件+调优+运维，一次性收费）；②专注垂直场景微调的模型服务商（通用模型商品化，专有数据才值钱）。
终局：3年内，日均调用量超10万次的企业将有70%以上迁移至本地或混合架构。云AI API市场从增量市场变成存量博弈。

老板的两条出路

出路一（防守型）：锁定现有云API合同，同步启动自建评估。立即要求供应商提供未来12个月的token单价承诺函；同时委托一名懂Linux的工程师，用1个月时间完成本地部署POC（概念验证），硬件租赁测试成本约3-5万元。用数据说话再做决策。

出路二（进攻型）：将本地推理能力打包成服务，反向销售给同行。采购一套15-20万元的双卡服务器，面向同行业中小企业提供私有化AI推理租用——你的边际成本接近零，而他们仍在按token付费。第一步：找5家同行报价，测试市场接受度，无需任何额外投入。

社区讨论

"PIX拓扑（GPU通过PCIe交换机直连）比通过CPU根复合体路由快18%——对MoE模型来说，同步延迟比带宽更关键，因为每次前向传播只激活约10B参数，消息包极小。" — u/Visual-Synthesizer

"397B的GGUF模型完全装进192GB显存跑到79 tok/s，这才是真正的惊喜——意味着超大参数模型已经可以不依赖数据中心级硬件在本地运行。" — u/LocalLLaMA社区用户

本地部署122B大模型跑出198字/秒：算力租赁商的末日倒计时

现象与商业本质

维度类比：集装箱消灭散货码头

行业洗牌与终局推演

老板的两条出路

社区讨论

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱