事件概述

Cloudflare 本周发布了一篇技术深度解析文 章,详细介绍了其 Workers AI 平台支持超大语言模型(包括 Moonshot 的 Kimi K2.5) 的基础架构设计。据 Cloudflare 工程博客披露,自 Kimi K2.5 上 线该平台以来,团队已实现 3 倍性能提升,并表 示更多模型正在"陆续接入"。文章重点阐述了 驱动这一提升的两项核心工程决策:针对 agentic 工作负载的硬件配置调优,以及 prefill-decode (PD)分离架构。

这篇文章的发布时机经 过刻意安排——Cloudflare 工程团队指出,Workers AI 大模型托管功 能是"几周前"宣布的,而这些模型在文章发布的同一周内,已成 为多款 agentic 产品、工具框架和应用的核心支撑。

为何重要

Cloudflare 进军大型开源模型托管领域,使其与 Together AI、Fireworks AI、 Replicate 等专业推理服务商,以及 AWS、Google、Azure 的超大 规模云推理端点形成直接竞争。Cloudflare 押 注的差异化优势在于:网络边缘的地理邻近性 ,以及这篇文章所传递的信号——深度的 硬件与软件协同优化,而非单纯的 GPU 规模堆叠。

对于正在评 估推理基础设施的 CTO 而言,这里的架构选择对成 本和延迟具有直接影响。Agentic 工作负载——Workers AI 大模型层的核 心目标场景——在结构上与单轮对话补全存 在本质差异。每个 agent 轮次都会重新提交完整的上下文窗口:系统提示、 工具定义、MCP 配置以及所有历史轮次。这意味着输入 token 量随每一步递增,使得 prefill 吞吐量成为主导性能的关键变量,而非解码速度。 Cloudflare 已针对这一模式进行了专项调优。

更宏 观的市场信号是:推理基础设施正在走向分化。针对短文本补 全优化的通用端点,已无法满足生产级 agentic 系统的 需求。未能对 prefill 密集型工作负载进行 计算分离的服务商,将随着 agent 上下文窗口的 持续增长而面临复利式的延 迟惩罚——这是一种随模型规 模增大而不断加剧的结构性劣势。

技 术细节

Prefill-Decode 分离架构

Cloudflare 的实现方案将 LLM 推理的两个阶段分别部署在独 立的推理服务器上:

  • Prefill 服务器负责处理输入 token 并填 充 KV cache。该阶段属于计算密集型,瓶颈在于 GPU FLOPS 而非内存带宽。
  • Decode 服务器负责自回归 token 生成。该阶段属于内 存密集型,瓶颈在于 KV cache 读取带宽而非原始算力。

Cloudflare 工程师指出,将两个阶段共 置于同一台机器上的问题在于:pref ill 和 decode 依赖不同的 GPU 子系统,且由于 prefill 在时序上必 须先于 decode,两个阶段会相互阻塞。针对高 内存带宽优化的 GPU(适合 decode)在 prefill 阶段利用率低下 ,反之亦然。分离架构使每类服务器能够根 据各自的瓶颈资源独立配置和扩展。

这并 非全新概念——有关 PD 分离的学 术研究(包括 Splitwise 和 DistServe 论文)早已在推理研究社 区广泛流传,DeepMind 及多家初 创公司也探索过类似的拆分方案。值得关 注的是,Cloudflare 将这一架构在网络边缘而非集中式数据中心 落地运营——在边缘场景下,服 务器间 KV cache 传输延迟成为更为严峻的工程约束。

硬件配置策略

根据文章介绍,Cloudflare 针对不同的输入/输出 token 比例运 行多套硬件配置。工程团队识别出两种对立 的工作负载原型:

  • 生成密集型工作负载(如长文本内 容创作):输入 token 量低,输出 token 量高——以 decode 为 瓶颈。
  • 摘要或 agentic 工作负载:输入 token 量高(每轮完 整上下文重新提交),输出量中低——以 prefill 为瓶颈。

针对 Workers AI 的目标场景——agentic 流水线——团队明确将快 速输入 token 处理速度和快速 tool call 响应能力置 于优先位置,而非追求原始生成吞吐量。文 章未披露具体的 tokens-per-second 数据,仅提及 Kimi K2.5 实 现了 3 倍性能提升。

KV Cache 相关考量

文章将 KV cache 填 充作为 prefill 阶段的组成部分加以介绍。在分离架构中,已 填充的 KV cache 必须在生成开始前从 prefill 服务器传 输至 decode 服务器。这一传输开销是 PD 分离实 现中的已知挑战——文章未详述 Cloudflare 处 理该传输的具体机制,无论是通过 RDMA、NV Link fabric 扩展还是网络传输层,这一问题 仍是悬而未决的技术细节。

后续关注点

  • Workers AI 新模型上线动态:Cloudflare 明确表示更多模型正在"陆续接入"。 鉴于本文"超大模型"的定位框架,预计 未来 30 天内将有新公告发 布,目标参数量可能集中在 70B 至 400B 区间。
  • 基准测试数据披露:K imi K2.5 的 3 倍速度提升声明缺乏公开基准参照。 关注 Cloudflare 是否会发布对比竞品推 理服务商的 tokens-per-second 或首 token 时延数据——随 着企业采购周期启动,这将成为竞争的必要 条件。
  • Fireworks AI 和 Together AI 的竞争回应:两家服 务商均在大模型自定义推理内核和硬件配置上投 入颇深。Cloudflare 携边缘网络优势入场,将在 地理分布式 agentic 工作负载的延迟 SLA 层面向两者施压。
  • KV cache 传 输架构的进一步披露:当前文章未指明服务器间 KV cache 传输机制。若后续发布相关技术文章 或在技术会议上作专题演讲,将 是 Cloudflare 分离推理架构成熟度的重要信号。