事件经过
据一家中国企业知识库 SaaS 公司 的工程负责人发布在掘金上的复盘文章,该 公司已将其全套 AI 技术栈从自建 GPU 基 础设施迁移至第三方 API 调用。整个迁移决策起源于 CTO 在群聊里 发出的一条消息,没有任何会议铺垫:" 模型服务下线,全部切 API。"直接导火索是 DeepSeek- V3 的 API 定价跌破每百万 token ¥1 的关口,使得公 司原有的 GPU 集群在经济上再无立足之地。
该公司自去年年初起便运营着 四块 A100 GPU,用于承载一个经过微调的 7B 参数模型。据 作者介绍,综合 GPU 租用费、电费、带宽费及 运维人力成本,每月总支出约为 ¥80,000。 而按照同等调用量估算,切换至 DeepSeek API 后每月成本不足 ¥2,000,降幅约为 97.5%。折 算成年度数据,此次迁移可节省约 ¥936,000; 原文中提及的 ¥480 万总节省额 ,应是综合了多年期测算或完 全摊销的人力成本后得出的数字。
为何值得关注
这一案例记录了一种正在中 国企业软件市场广泛上演的决策范式转变——"自建模型即 护城河"的论断,正在 API 价格持续下压的 浪潮中加速瓦解。去年 10 月,该公司管理层还 以自建模型构成"核心技术壁垒"为由,明 确叫停了 API 迁移计划。然而仅在 DeepSeek 宣布调价 数月之后,这一立场便彻底逆 转。
此事对基础设施供应商和 GPU 云服务商的影响显而 易见。一个四块 A100 的部署方案——对任何云服务商而言都 是一笔可观的收入——被每月不足 ¥2,000 的 API 支出所取 代。如果类似决策在中国企业 SaaS 市场大规模复制,对 GPU 租用容量而言将形成实质性的需求逆 风。
对于工程团队而言,这个案例也重新定义了 RAG 时 代"技术差异化"的真正含义。作者的结论是:真正具备 防御价值的层次并非模型本身,而是检索 管道——包括分块策略、Embedding 模型选型以及重排序逻辑。这些能 力可以在任何底层 LLM API 之间自由 迁移。
技术细节
本次迁移的核心是一套面向文
档问答的 RAG(Retrieval-Augmented Generation)架构。主干流程为:用户提问 → 向
量检索相关文本块 → 上下文拼装 → 携
带检索结果调用 LLM。团队使用 openai.ChatCompletion.create 接入 deepseek-
chat,并将 temperature 设为 0.1,以降低事
实检索任务中的幻觉概率。
分 块策略
固定 512 token 的分块方式表
现欠佳——段落边界被强行截断,导致检索精度明显下降。团队最
终采用 LangChain 的 RecursiveCharacterTextSplitter 实现递归分块,并针
对不同文档类型配置差异化的分隔符层级:
- 合同文档:
按条款标记(
\n第、\n条款)切分,块大小 800 token,重叠 100 token - 技术文档:
按 Markdown 标题(
\n##、\n###)切分,块大小 600 token,重叠 80 token - 默认规则:段落级切分,块大小 500 token,重叠 50 token
两阶段 Embedding 架构
单一模型 Embedding 方案在成本与质量之间找不
到令人满意的平衡点。OpenAI 的 text-embedding-ada-002 在中文检
索上表现出色,但每 token 成本偏高;阿里云的 text-embedding-v2
可将 Embedding 成本压缩约 90%,但中
文检索质量出现可观测的下降。
最终方案是构 建两阶段检索管道:阿里云模型负责粗召回(取前 50 个 候选),OpenAI 模型负责对候选集进行重排序(从中精 选前 5 条)。按团队实测,该方 案将 Embedding 成本降低了 80%,与全程使 用 OpenAI Embedding 相比,质量损失几乎可以忽略不 计。
def two_stage_search(question: str):
# 第一阶段:阿里云模型,召回前 50 条
candidates = aliyun_vector_store.search(question, top_k=50)
# 第二阶段:OpenAI 模型,重排序至前 5 条
...已记录的运维故 障
据作者披露,自建基础设施曾因 GPU 内存泄 漏引发至少一次长达四小时的服务中断, 仅该次事故便收到超过十 条客户投诉。这一运维风险并未被纳入成 本核算,但被明确列为推动此次迁移决策的因素之一。
后续值得关注的信号
- DeepSeek 定价下 限:每百万 token ¥1 的价格是本次迁移的直接催 化剂。需持续关注 DeepSeek 或竞争对手(Qwen、Moonshot)是 否在一季度进一步下调定价,这 将加速更多仍在观望的企业做出类似决策。
- Alibaba text-embedding-v3:若阿里云推出中文能力大幅提升的新 版 Embedding 模型,本文描述的两阶段架构或将 合并为单一供应商方案,从而将 OpenAI 彻底移 出流程。
- LangChain 分块原语:该团队的递归分块实现属于标 准 LangChain 用法。值得关注 LangChain 或 LlamaIndex 是否会推 出感知文档类型的分块器,将目前依赖手 动条件判断的策略选择逻辑自动化。
- 企业 SaaS 定价压力:随着越来越多的中国 SaaS 公司完 成类似迁移,行业利润结构将随之改变。那些过 去将 AI 功能定价以覆盖每月 ¥80,000 GPU 成 本的公司,在底层成本骤降 97% 之后,可 能面临重新定价的竞争压力。