Article Not Found

事件经过

据一家中国企业知识库 SaaS 公司的工程负责人发布在掘金上的复盘文章，该公司已将其全套 AI 技术栈从自建 GPU 基础设施迁移至第三方 API 调用。整个迁移决策起源于 CTO 在群聊里发出的一条消息，没有任何会议铺垫：" 模型服务下线，全部切 API。"直接导火索是 DeepSeek- V3 的 API 定价跌破每百万 token ¥1 的关口，使得公司原有的 GPU 集群在经济上再无立足之地。

该公司自去年年初起便运营着四块 A100 GPU，用于承载一个经过微调的 7B 参数模型。据作者介绍，综合 GPU 租用费、电费、带宽费及运维人力成本，每月总支出约为 ¥80,000。而按照同等调用量估算，切换至 DeepSeek API 后每月成本不足 ¥2,000，降幅约为 97.5%。折算成年度数据，此次迁移可节省约 ¥936,000；原文中提及的 ¥480 万总节省额，应是综合了多年期测算或完全摊销的人力成本后得出的数字。

为何值得关注

这一案例记录了一种正在中国企业软件市场广泛上演的决策范式转变——"自建模型即护城河"的论断，正在 API 价格持续下压的浪潮中加速瓦解。去年 10 月，该公司管理层还以自建模型构成"核心技术壁垒"为由，明确叫停了 API 迁移计划。然而仅在 DeepSeek 宣布调价数月之后，这一立场便彻底逆转。

此事对基础设施供应商和 GPU 云服务商的影响显而易见。一个四块 A100 的部署方案——对任何云服务商而言都是一笔可观的收入——被每月不足 ¥2,000 的 API 支出所取代。如果类似决策在中国企业 SaaS 市场大规模复制，对 GPU 租用容量而言将形成实质性的需求逆风。

对于工程团队而言，这个案例也重新定义了 RAG 时代"技术差异化"的真正含义。作者的结论是：真正具备防御价值的层次并非模型本身，而是检索管道——包括分块策略、Embedding 模型选型以及重排序逻辑。这些能力可以在任何底层 LLM API 之间自由迁移。

技术细节

本次迁移的核心是一套面向文档问答的 RAG（Retrieval-Augmented Generation）架构。主干流程为：用户提问 → 向量检索相关文本块 → 上下文拼装 → 携带检索结果调用 LLM。团队使用 openai.ChatCompletion.create 接入 deepseek- chat，并将 temperature 设为 0.1，以降低事实检索任务中的幻觉概率。

分块策略

固定 512 token 的分块方式表现欠佳——段落边界被强行截断，导致检索精度明显下降。团队最终采用 LangChain 的 RecursiveCharacterTextSplitter 实现递归分块，并针对不同文档类型配置差异化的分隔符层级：

合同文档： 按条款标记（\n第、\n条款）切分，块大小 800 token，重叠 100 token
技术文档： 按 Markdown 标题（\n## 、\n### ）切分，块大小 600 token，重叠 80 token
默认规则：段落级切分，块大小 500 token，重叠 50 token

两阶段 Embedding 架构

单一模型 Embedding 方案在成本与质量之间找不到令人满意的平衡点。OpenAI 的 text-embedding-ada-002 在中文检索上表现出色，但每 token 成本偏高；阿里云的 text-embedding-v2 可将 Embedding 成本压缩约 90%，但中文检索质量出现可观测的下降。

最终方案是构建两阶段检索管道：阿里云模型负责粗召回（取前 50 个候选），OpenAI 模型负责对候选集进行重排序（从中精选前 5 条）。按团队实测，该方案将 Embedding 成本降低了 80%，与全程使用 OpenAI Embedding 相比，质量损失几乎可以忽略不计。

def two_stage_search(question: str):
    # 第一阶段：阿里云模型，召回前 50 条

    candidates = aliyun_vector_store.search(question, top_k=50)
    # 第二阶段：OpenAI 模型，重排序至前 5 条
    
...

已记录的运维故障

据作者披露，自建基础设施曾因 GPU 内存泄漏引发至少一次长达四小时的服务中断，仅该次事故便收到超过十条客户投诉。这一运维风险并未被纳入成本核算，但被明确列为推动此次迁移决策的因素之一。

后续值得关注的信号

DeepSeek 定价下限：每百万 token ¥1 的价格是本次迁移的直接催化剂。需持续关注 DeepSeek 或竞争对手（Qwen、Moonshot）是否在一季度进一步下调定价，这将加速更多仍在观望的企业做出类似决策。
Alibaba text-embedding-v3：若阿里云推出中文能力大幅提升的新版 Embedding 模型，本文描述的两阶段架构或将合并为单一供应商方案，从而将 OpenAI 彻底移出流程。
LangChain 分块原语：该团队的递归分块实现属于标准 LangChain 用法。值得关注 LangChain 或 LlamaIndex 是否会推出感知文档类型的分块器，将目前依赖手动条件判断的策略选择逻辑自动化。
企业 SaaS 定价压力：随着越来越多的中国 SaaS 公司完成类似迁移，行业利润结构将随之改变。那些过去将 AI 功能定价以覆盖每月 ¥80,000 GPU 成本的公司，在底层成本骤降 97% 之后，可能面临重新定价的竞争压力。

RAG 架构迁移：从自建 GPU 集群转向 API，成本直降 97%

事件经过

为何值得关注

技术细节

分块策略

两阶段 Embedding 架构

已记录的运维故障

后续值得关注的信号

Related Reading

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Goldman Sachs Warning : S &P 500 Now Half an AI Index

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

RAG 架构迁移：从自建 GPU 集群转向 API， 成本直降 97%

事件经过

为何值得关注

技术细节

分 块策略

两阶段 Embedding 架构

已记录的运维故 障

后续值得关注的信号

Related Reading

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Goldman Sachs Warning : S &P 500 Now Half an AI Index

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

RAG 架构迁移：从自建 GPU 集群转向 API，成本直降 97%

分块策略

已记录的运维故障