Article Not Found

事件概述

Cloudflare 本周发布了一篇技术深度解析文章，详细介绍了其 Workers AI 平台支持超大语言模型（包括 Moonshot 的 Kimi K2.5）的基础架构设计。据 Cloudflare 工程博客披露，自 Kimi K2.5 上线该平台以来，团队已实现 3 倍性能提升，并表示更多模型正在"陆续接入"。文章重点阐述了驱动这一提升的两项核心工程决策：针对 agentic 工作负载的硬件配置调优，以及 prefill-decode （PD）分离架构。

这篇文章的发布时机经过刻意安排——Cloudflare 工程团队指出，Workers AI 大模型托管功能是"几周前"宣布的，而这些模型在文章发布的同一周内，已成为多款 agentic 产品、工具框架和应用的核心支撑。

为何重要

Cloudflare 进军大型开源模型托管领域，使其与 Together AI、Fireworks AI、 Replicate 等专业推理服务商，以及 AWS、Google、Azure 的超大规模云推理端点形成直接竞争。Cloudflare 押注的差异化优势在于：网络边缘的地理邻近性，以及这篇文章所传递的信号——深度的硬件与软件协同优化，而非单纯的 GPU 规模堆叠。

对于正在评估推理基础设施的 CTO 而言，这里的架构选择对成本和延迟具有直接影响。Agentic 工作负载——Workers AI 大模型层的核心目标场景——在结构上与单轮对话补全存在本质差异。每个 agent 轮次都会重新提交完整的上下文窗口：系统提示、工具定义、MCP 配置以及所有历史轮次。这意味着输入 token 量随每一步递增，使得 prefill 吞吐量成为主导性能的关键变量，而非解码速度。 Cloudflare 已针对这一模式进行了专项调优。

更宏观的市场信号是：推理基础设施正在走向分化。针对短文本补全优化的通用端点，已无法满足生产级 agentic 系统的需求。未能对 prefill 密集型工作负载进行计算分离的服务商，将随着 agent 上下文窗口的持续增长而面临复利式的延迟惩罚——这是一种随模型规模增大而不断加剧的结构性劣势。

技术细节

Prefill-Decode 分离架构

Cloudflare 的实现方案将 LLM 推理的两个阶段分别部署在独立的推理服务器上：

Prefill 服务器负责处理输入 token 并填充 KV cache。该阶段属于计算密集型，瓶颈在于 GPU FLOPS 而非内存带宽。
Decode 服务器负责自回归 token 生成。该阶段属于内存密集型，瓶颈在于 KV cache 读取带宽而非原始算力。

Cloudflare 工程师指出，将两个阶段共置于同一台机器上的问题在于：pref ill 和 decode 依赖不同的 GPU 子系统，且由于 prefill 在时序上必须先于 decode，两个阶段会相互阻塞。针对高内存带宽优化的 GPU（适合 decode）在 prefill 阶段利用率低下，反之亦然。分离架构使每类服务器能够根据各自的瓶颈资源独立配置和扩展。

这并非全新概念——有关 PD 分离的学术研究（包括 Splitwise 和 DistServe 论文）早已在推理研究社区广泛流传，DeepMind 及多家初创公司也探索过类似的拆分方案。值得关注的是，Cloudflare 将这一架构在网络边缘而非集中式数据中心落地运营——在边缘场景下，服务器间 KV cache 传输延迟成为更为严峻的工程约束。

硬件配置策略

根据文章介绍，Cloudflare 针对不同的输入/输出 token 比例运行多套硬件配置。工程团队识别出两种对立的工作负载原型：

生成密集型工作负载（如长文本内容创作）：输入 token 量低，输出 token 量高——以 decode 为瓶颈。
摘要或 agentic 工作负载：输入 token 量高（每轮完整上下文重新提交），输出量中低——以 prefill 为瓶颈。

针对 Workers AI 的目标场景——agentic 流水线——团队明确将快速输入 token 处理速度和快速 tool call 响应能力置于优先位置，而非追求原始生成吞吐量。文章未披露具体的 tokens-per-second 数据，仅提及 Kimi K2.5 实现了 3 倍性能提升。

KV Cache 相关考量

文章将 KV cache 填充作为 prefill 阶段的组成部分加以介绍。在分离架构中，已填充的 KV cache 必须在生成开始前从 prefill 服务器传输至 decode 服务器。这一传输开销是 PD 分离实现中的已知挑战——文章未详述 Cloudflare 处理该传输的具体机制，无论是通过 RDMA、NV Link fabric 扩展还是网络传输层，这一问题仍是悬而未决的技术细节。

后续关注点

Workers AI 新模型上线动态：Cloudflare 明确表示更多模型正在"陆续接入"。鉴于本文"超大模型"的定位框架，预计未来 30 天内将有新公告发布，目标参数量可能集中在 70B 至 400B 区间。
基准测试数据披露：K imi K2.5 的 3 倍速度提升声明缺乏公开基准参照。关注 Cloudflare 是否会发布对比竞品推理服务商的 tokens-per-second 或首 token 时延数据——随着企业采购周期启动，这将成为竞争的必要条件。
Fireworks AI 和 Together AI 的竞争回应：两家服务商均在大模型自定义推理内核和硬件配置上投入颇深。Cloudflare 携边缘网络优势入场，将在地理分布式 agentic 工作负载的延迟 SLA 层面向两者施压。
KV cache 传输架构的进一步披露：当前文章未指明服务器间 KV cache 传输机制。若后续发布相关技术文章或在技术会议上作专题演讲，将是 Cloudflare 分离推理架构成熟度的重要信号。

构建超大语言模型的运行基础：Cloudflare 的推理架构解析

事件概述

为何重要

技术细节

Prefill-Decode 分离架构

硬件配置策略

KV Cache 相关考量

后续关注点

Related Reading

Goldman Sachs Warning : S &P 500 Now Half an AI Index

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Quarter the Cost , Same AI Quality : How I Cut Client Bills

构 建超大语言模型的运行基础：Cloudflare 的推理架构解析

事件概述

为何重要

技 术细节

Prefill-Decode 分离架构

硬件配置策略

KV Cache 相关考量

后续关注点

Related Reading

Goldman Sachs Warning : S &P 500 Now Half an AI Index

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Quarter the Cost , Same AI Quality : How I Cut Client Bills

构建超大语言模型的运行基础：Cloudflare 的推理架构解析

技术细节