Article Not Found

实测九十万Token的RAG切分：最笨的按行切法最准，企业知识库别交智商税

Vecta 团队用 905,746 个 Token 测试了 7 种 AI 文档切分方案，结论出人意料：最“笨”的按换行符递归切分准确率达 69%，远超所谓的“智能语义切分”——企业花重金搭建的 RAG 知识库，很可能栽在最基础的切分环节。

这是什么

RAG（检索增强生成，让大模型先检索企业内部文档再回答问题的技术）是目前企业用 AI 的主流方式。但大模型一次读不完几十页的长文档，必须先切片，这个步骤叫 Chunking。

我们注意到，很多开发者花大量时间调 Prompt 或换更贵的模型，却对切分策略“拍脑袋”：固定切 512 字，加 50 字重叠，完事。这是 RAG 质量差的根本原因。当一段文本被压缩成向量（Embedding，将文本转为数学向量以便比对相似度）时，如果 chunk 里混杂多个主题，语义就会被稀释；如果合同里的当事方、日期被切到不同 chunk 里，结构信息就彻底丢失。切分质量决定了后续所有优化的上限。

行业怎么看

行业正形成共识：在切分上，简单往往胜过花哨。Vecta 的基准测试表明，Recursive（按换行、句号等自然边界递归切割）以 69% 准确率稳居第一，而理论完美的 Semantic Chunking（按语义相似度断裂来切分）只有 54%。后者每次切分都要调用向量化接口，成本高、速度慢，且切出来的块大小极不稳定，实际表现反而更差。

在生产环境，行业更推荐 Parent-Child（父子切分）策略：用小块精准检索，命中后向大模型提供所属的完整大块上下文。但值得我们关心的是，Reddit 上有尖锐的反对声音指出：当前的切分优化只是在迎合向量化的便利性，根本不符合人类使用文档的逻辑。无论哪种自动化切分，都无法真正理解特定业务文档的结构逻辑，过度追求切分算法而忽略文档本身的排版与元数据，是本末倒置。

对普通人的影响

对企业 IT：采购 AI 知识库时，别被“智能语义切分”等概念忽悠，应优先考察供应商是否支持按文档标题层级、段落结构的切分调试能力。

对个人职场：用 AI 处理长文档时，自己先做好排版（多用换行和层级标题），你的文档结构越清晰，AI 切分越准，给出的回答就越靠谱。

对消费市场：各类 AI 阅读助手如果频繁“胡说八道”，往往不是模型智商低，而是它后端把你的文档“切碎”时切错了位置，丢失了关键上下文。

实测九十万Token的RAG切分：最笨的按行切法最准，企业知识库别交智商税

这是什么

行业怎么看

对普通人的影响

Related Reading

900K-Token RAG Test: Simplest Line Split Wins; Enterprise KBs Stop Overpaying

90% of Enterprise AI Knowledge Base Failures Lie in Retrieval, Not LLMs

LangChain Breaks AI Into 4 Components: Orchestration Layer, Not Just Framework

Traditional DBs Fail at AI Semantics: Vector DB Selection Decides Knowledge Base Fate

AWS Quick Natural Language Dashboards Zero the Build Barrier for Analysts

AWS Makes BI Conversational: Data Bottlenecks Are Process, Not Tech