算力超市在卖掉模型护城河

01 触发事件

36kr 8 月报道了一家“算力超市”的说法：其同时卖两类产品，一类按 GPU 卡时计费，另一类按大模型 Token 计费；负责人给出的口径是，百万 Token 大概只要几块钱，而且价格还在往下降。同一则消息还提到，这个平台的算力来自多个渠道，由平台负责匹配、调度和交付，客户里 80% 是中小企业，覆盖教科文、电商、人工智能、机器人、具身智能等行业。

这不是 OpenAI、Anthropic、Google 这种一线 model provider 的官方 price sheet，所以我没法把“几块钱/百万 Token”直接等同于某个标准化模型的公开 API 定价，这点我可能误判。

但即便把口径打个折，这条信息仍然有价值，因为它暴露的不是单一价格点，而是一个更重要的信号：中国市场里，inference 正在被当作可流通、可拼装、可套利的标准化商品来卖。

callout

百万 Token 只要几块钱，算力价格还在往下降；平台同时提供按卡时和按 Token 两种计费，并负责匹配、调度和交付

02 这事的真正含义

表面上看，这是“算力更便宜了”。

但真正的含义不是价格下降本身，而是价格的归属权在变化。

过去两年，行业讨论模型 API，核心叙事还是 labs 定价：某个模型输入多少钱、输出多少钱、cache 命中怎么算、batch API 打几折。那时默认前提是，model vendor 既控制 supply，也控制价格锚点。

而“算力超市”这种形态在说另一件事：价格锚点开始从 model brand，转向交付层的撮合能力。

如果平台能同时拿到多路 GPU、多个模型、不同部署方式，再把这些资源包装成“按 Token 交付”的产品，它本质上就在做三件事：

第一，把原本垂直一体化的东西拆开。训练是训练，hosting 是 hosting，routing 是 routing，billing 是 billing，客户买到的只是结果。

第二，把模型 API 变成类大宗商品。客户未必关心底层是某个特定 checkpoint，还是某个蒸馏版本、量化版本、私有部署版本；客户真正关心的是单位任务成本、延迟、稳定性和可替代性。只要任务容忍 model substitution，token 就会像云计算时代的 spot instance 一样被重新定价。

第三，把中小企业需求聚合成议价能力。单个中小客户买不到好价格，也管不好复杂的部署栈；但平台如果聚合足够多的碎片化请求，就能在上游拿更低的 GPU 成本，在下游以更细的 SLA 和计费方式出售。

这才是这则新闻在说的事：不是“模型更值钱”，而是“模型调用越来越不值钱”，真正会被定价的是 routing、调度、缓存命中率、吞吐管理，以及谁能把 heterogeneous supply 组织起来。

我没在内部跑过这家平台，所以不能确认它的“几块钱/百万 Token”到底对应什么模型质量、什么上下文长度、什么 output/input 比例。但从产业结构看，方向是清楚的：token 正在从高毛利产品，滑向低毛利通路。

这对闭源 labs 不是小问题。

因为一旦市场接受“结果导向而非模型导向”的采购习惯，品牌模型的 moat 就会被压缩到两个位置：要么是最前沿能力，要么是超强 distribution。中间层的大部分能力，都会被 broker、gateway、router 吃掉。

03 历史类比 / 结构对照

我想到的更像 2014 年之后的 AWS，而不是 2022 年的 ChatGPT。

ChatGPT 时刻的重点是，模型能力第一次被大规模需求验证，供给稀缺，用户愿意为“能用”本身付钱。那是一个典型的创新溢价阶段，产品定义权在模型公司手里。

但当云计算成熟后，市场发生过类似的结构变化：最早大家买服务器，后来买虚拟机，再后来买的是更抽象的服务接口。越往后，底层资源越 commodity，真正有议价权的不是那块铁本身，而是 orchestration、抽象层和 distribution。

今天的 inference 也在走同样路径。

GPU 卡时是最底层资源。 Token 是更上层的计费抽象。而“算力超市”再往上走了一步：它把不同 GPU 渠道、不同模型、不同交付方式打包成一个可采购界面。

这很像云时代里 reseller、managed service provider、cloud broker 出现的时刻。不是基础设施不重要了，恰恰相反，是基础设施足够重要，才会催生经纪层。

还有一个更尖锐的类比，是电力市场。

发电厂不直接卖给每个终端用户，电网和交易层决定了大量现实价格。AI 里也是一样：如果上游是 GPU/TPU 与模型，下游是企业任务，那么中间必然会出现把 capacity、latency、QoS 和价格打包的交易层。

问题不在“模型是不是越来越强”，而在模型强到一定程度后，差异是否还足以支撑高价。

如果大多数企业任务只需要“足够好的 summarization、RAG、分类、代码补全、客服回复”，那它们不会为 frontier intelligence 长期支付 frontier premium。它们会买次优模型，再配合 prompt engineering、cache、workflow、人审，把总成本打下来。

我可能低估了品牌模型在高价值场景中的粘性，尤其是 coding agent、复杂 reasoning、长链工具调用这些任务，对模型质量仍然敏感。但大量预算其实不在这些任务上，而在海量中低价值 inference 上。

而海量、重复、可缓存、可替换的请求，最后一定被重新定价。

04 对 AI builder 意味着什么

如果我是 AI builder，看到这条消息，短期不会只把它当成“行业新闻”，而会立刻调整三个决策。

第一，不要把单一模型 API 定价当成长期常数。

你的 unit economics 如果建立在今天某家 provider 的官方 list price 上，迟早会失真。因为市场已经不只是“直接向 model vendor 采购”，而是出现 broker、gateway、私有化部署、开源托管、prompt caching、batch API、异步生成、regional arbitrage 这些多种路径。

该做的不是追某一次降价，而是把产品架构改成可 routing。

把模型层抽象出来
把质量阈值写进策略
把 cache 命中、fallback、重试、上下文裁剪做成系统能力
把高价值请求和低价值请求分层

很多团队嘴上说 model-agnostic，实际上代码和评测流程都深绑在一个 provider 上，这会直接吃掉你的毛利弹性。

第二，重新审视 open source 的商业位置。

如果百万 Token 已经被打到“几块钱”心智，闭源 API 的 premium 只能靠明显更强的能力来解释。否则，Qwen、DeepSeek、Llama、Mistral 这类开源或开放权重模型，只要在特定任务上达到 80-90 分，就足以在大量场景里替代闭源模型。

对 builder 来说，这不意味着全面转向 open source，而是意味着要做 task-level portfolio：

高复杂度 agent 流程，保留 Anthropic / OpenAI / Google
高吞吐、可容错任务，优先 open weights 或低价通道
内部工具和长尾工作流，优先用最便宜的可接受模型

这点我可能说得过满，因为不少团队实际 bottleneck 不是 token 成本，而是分发、销售、留存。但当所有人都在卷 ARR 时，毛利率往往是最后暴露问题的地方。

第三，把 gateway 能力从“接 API”升级成“交易系统”。

对 opcx.ai 这类 token gateway 来说，真正的机会不只是聚合接入更多模型，而是帮助客户做四层控制：

price-aware routing
QoS-aware fallback
prompt caching 与 session 级 KV cache 策略
workload segmentation

换句话说，未来客户买的不是“能调 Claude / GPT / Gemini / Qwen”，而是“在可接受质量下，把每一类请求送到最合适的成本曲线”。

这才是 gateway 的 moat。

不是接得多，而是调度得对。

05 反方观点 / 风险

我可能错在三个地方，而且都不小。

第一，这条新闻的价格口径可能高度不可比。

“百万 Token 几块钱”听起来很刺激，但如果它对应的是小模型、短上下文、离线 batch、特定区域算力、预付承诺、或者低 SLA 服务，那它并不能代表主流在线 API 市场。很多 builder 读到这种数字，容易把边际特价错当成普遍价格。

第二，质量差异可能比价格差异更重要。

在客服、营销文案、基础问答这类任务里，便宜模型足够用；但在 coding agent、复杂企业工作流、长链推理、多工具调用里，模型可靠性的小幅提升会放大成巨大的任务成功率差异。那时真正昂贵的不是 token，而是失败重试、人工兜底、错误决策和客户流失。

如果是这种情况，闭源 frontier model 的 premium 不但不会消失，反而会进一步两极分化：低端 token commodity，高端 intelligence luxury。

第三，中间层未必一定能守住 moat。

broker 看起来性感，但历史上经纪层有个老问题：一旦市场透明，利润会被压薄；一旦上游强势，接口会被收紧；一旦下游规模足够大，客户会选择直采。云计算市场里，很多 reseller 最后都没拿到结构性利润。

AI gateway 也一样。

如果 platform 只是做简单转售，没有评测闭环、没有 routing 数据、没有 workflow 级集成、没有 billing/control plane 级嵌入，那它很容易沦为通道生意，被上游 labs 和下游大客户双向挤压。

所以我不会把这条新闻解读成“中间层必赢”。

更准确的判断是：inference commodity 化正在加速，但 commodity 化带来的，不是所有中间层都有价值，而是只有真正掌握流量、策略和切换成本的中间层能活下来。

这才是接下来 12 个月真正会被市场检验的部分。

算力超市在卖掉模型护城河

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

相关推荐

AI 时代，雇主品牌开始定价

便宜模型，不只是价格战

两天跑掉 5000 万 token 省下 151 美元，本地模型开始适合重度开发者

6名工程师76天交付大项目，AI 编程真正改变的是软件组织方式

印度卡住 Starlink，不只是审批

苹果AI补课，真正赌注不是Siri