01 触发事件

36kr 8 月报道了一家“算力超市”的说法:其同时卖两类产品,一类按 GPU 卡时计费,另一类按大模型 Token 计费;负责人给出的口径是,百万 Token 大概只要几块钱,而且价格还在往下降。同一则消息还提到,这个平台的算力来自多个渠道,由平台负责匹配、调度和交付,客户里 80% 是中小企业,覆盖教科文、电商、人工智能、机器人、具身智能等行业。

这不是 OpenAI、Anthropic、Google 这种一线 model provider 的官方 price sheet,所以我没法把“几块钱/百万 Token”直接等同于某个标准化模型的公开 API 定价,这点我可能误判。

但即便把口径打个折,这条信息仍然有价值,因为它暴露的不是单一价格点,而是一个更重要的信号:中国市场里,inference 正在被当作可流通、可拼装、可套利的标准化商品来卖。

callout

百万 Token 只要几块钱,算力价格还在往下降;平台同时提供按卡时和按 Token 两种计费,并负责匹配、调度和交付

02 这事的真正含义

表面上看,这是“算力更便宜了”。

但真正的含义不是价格下降本身,而是价格的归属权在变化

过去两年,行业讨论模型 API,核心叙事还是 labs 定价:某个模型输入多少钱、输出多少钱、cache 命中怎么算、batch API 打几折。那时默认前提是,model vendor 既控制 supply,也控制价格锚点。

而“算力超市”这种形态在说另一件事:价格锚点开始从 model brand,转向交付层的撮合能力。

如果平台能同时拿到多路 GPU、多个模型、不同部署方式,再把这些资源包装成“按 Token 交付”的产品,它本质上就在做三件事:

第一,把原本垂直一体化的东西拆开。 训练是训练,hosting 是 hosting,routing 是 routing,billing 是 billing,客户买到的只是结果。

第二,把模型 API 变成类大宗商品。 客户未必关心底层是某个特定 checkpoint,还是某个蒸馏版本、量化版本、私有部署版本;客户真正关心的是单位任务成本、延迟、稳定性和可替代性。只要任务容忍 model substitution,token 就会像云计算时代的 spot instance 一样被重新定价。

第三,把中小企业需求聚合成议价能力。 单个中小客户买不到好价格,也管不好复杂的部署栈;但平台如果聚合足够多的碎片化请求,就能在上游拿更低的 GPU 成本,在下游以更细的 SLA 和计费方式出售。

这才是这则新闻在说的事:不是“模型更值钱”,而是“模型调用越来越不值钱”,真正会被定价的是 routing、调度、缓存命中率、吞吐管理,以及谁能把 heterogeneous supply 组织起来。

我没在内部跑过这家平台,所以不能确认它的“几块钱/百万 Token”到底对应什么模型质量、什么上下文长度、什么 output/input 比例。但从产业结构看,方向是清楚的:token 正在从高毛利产品,滑向低毛利通路。

这对闭源 labs 不是小问题。

因为一旦市场接受“结果导向而非模型导向”的采购习惯,品牌模型的 moat 就会被压缩到两个位置:要么是最前沿能力,要么是超强 distribution。中间层的大部分能力,都会被 broker、gateway、router 吃掉。

03 历史类比 / 结构对照

我想到的更像 2014 年之后的 AWS,而不是 2022 年的 ChatGPT。

ChatGPT 时刻的重点是,模型能力第一次被大规模需求验证,供给稀缺,用户愿意为“能用”本身付钱。那是一个典型的创新溢价阶段,产品定义权在模型公司手里。

但当云计算成熟后,市场发生过类似的结构变化:最早大家买服务器,后来买虚拟机,再后来买的是更抽象的服务接口。越往后,底层资源越 commodity,真正有议价权的不是那块铁本身,而是 orchestration、抽象层和 distribution。

今天的 inference 也在走同样路径。

GPU 卡时是最底层资源。 Token 是更上层的计费抽象。 而“算力超市”再往上走了一步:它把不同 GPU 渠道、不同模型、不同交付方式打包成一个可采购界面。

这很像云时代里 reseller、managed service provider、cloud broker 出现的时刻。不是基础设施不重要了,恰恰相反,是基础设施足够重要,才会催生经纪层。

还有一个更尖锐的类比,是电力市场。

发电厂不直接卖给每个终端用户,电网和交易层决定了大量现实价格。AI 里也是一样:如果上游是 GPU/TPU 与模型,下游是企业任务,那么中间必然会出现把 capacity、latency、QoS 和价格打包的交易层。

问题不在“模型是不是越来越强”,而在模型强到一定程度后,差异是否还足以支撑高价。

如果大多数企业任务只需要“足够好的 summarization、RAG、分类、代码补全、客服回复”,那它们不会为 frontier intelligence 长期支付 frontier premium。它们会买次优模型,再配合 prompt engineering、cache、workflow、人审,把总成本打下来。

我可能低估了品牌模型在高价值场景中的粘性,尤其是 coding agent、复杂 reasoning、长链工具调用这些任务,对模型质量仍然敏感。但大量预算其实不在这些任务上,而在海量中低价值 inference 上。

而海量、重复、可缓存、可替换的请求,最后一定被重新定价。

04 对 AI builder 意味着什么

如果我是 AI builder,看到这条消息,短期不会只把它当成“行业新闻”,而会立刻调整三个决策。

第一,不要把单一模型 API 定价当成长期常数。

你的 unit economics 如果建立在今天某家 provider 的官方 list price 上,迟早会失真。因为市场已经不只是“直接向 model vendor 采购”,而是出现 broker、gateway、私有化部署、开源托管、prompt caching、batch API、异步生成、regional arbitrage 这些多种路径。

该做的不是追某一次降价,而是把产品架构改成可 routing。

  • 把模型层抽象出来
  • 把质量阈值写进策略
  • 把 cache 命中、fallback、重试、上下文裁剪做成系统能力
  • 把高价值请求和低价值请求分层

很多团队嘴上说 model-agnostic,实际上代码和评测流程都深绑在一个 provider 上,这会直接吃掉你的毛利弹性。

第二,重新审视 open source 的商业位置。

如果百万 Token 已经被打到“几块钱”心智,闭源 API 的 premium 只能靠明显更强的能力来解释。否则,Qwen、DeepSeek、Llama、Mistral 这类开源或开放权重模型,只要在特定任务上达到 80-90 分,就足以在大量场景里替代闭源模型。

对 builder 来说,这不意味着全面转向 open source,而是意味着要做 task-level portfolio:

  • 高复杂度 agent 流程,保留 Anthropic / OpenAI / Google
  • 高吞吐、可容错任务,优先 open weights 或低价通道
  • 内部工具和长尾工作流,优先用最便宜的可接受模型

这点我可能说得过满,因为不少团队实际 bottleneck 不是 token 成本,而是分发、销售、留存。但当所有人都在卷 ARR 时,毛利率往往是最后暴露问题的地方。

第三,把 gateway 能力从“接 API”升级成“交易系统”。

对 opcx.ai 这类 token gateway 来说,真正的机会不只是聚合接入更多模型,而是帮助客户做四层控制:

  • price-aware routing
  • QoS-aware fallback
  • prompt caching 与 session 级 KV cache 策略
  • workload segmentation

换句话说,未来客户买的不是“能调 Claude / GPT / Gemini / Qwen”,而是“在可接受质量下,把每一类请求送到最合适的成本曲线”。

这才是 gateway 的 moat。

不是接得多,而是调度得对

05 反方观点 / 风险

我可能错在三个地方,而且都不小。

第一,这条新闻的价格口径可能高度不可比。

“百万 Token 几块钱”听起来很刺激,但如果它对应的是小模型、短上下文、离线 batch、特定区域算力、预付承诺、或者低 SLA 服务,那它并不能代表主流在线 API 市场。很多 builder 读到这种数字,容易把边际特价错当成普遍价格。

第二,质量差异可能比价格差异更重要。

在客服、营销文案、基础问答这类任务里,便宜模型足够用;但在 coding agent、复杂企业工作流、长链推理、多工具调用里,模型可靠性的小幅提升会放大成巨大的任务成功率差异。那时真正昂贵的不是 token,而是失败重试、人工兜底、错误决策和客户流失。

如果是这种情况,闭源 frontier model 的 premium 不但不会消失,反而会进一步两极分化:低端 token commodity,高端 intelligence luxury。

第三,中间层未必一定能守住 moat。

broker 看起来性感,但历史上经纪层有个老问题:一旦市场透明,利润会被压薄;一旦上游强势,接口会被收紧;一旦下游规模足够大,客户会选择直采。云计算市场里,很多 reseller 最后都没拿到结构性利润。

AI gateway 也一样。

如果 platform 只是做简单转售,没有评测闭环、没有 routing 数据、没有 workflow 级集成、没有 billing/control plane 级嵌入,那它很容易沦为通道生意,被上游 labs 和下游大客户双向挤压。

所以我不会把这条新闻解读成“中间层必赢”。

更准确的判断是:inference commodity 化正在加速,但 commodity 化带来的,不是所有中间层都有价值,而是只有真正掌握流量、策略和切换成本的中间层能活下来。

这才是接下来 12 个月真正会被市场检验的部分。