Vecta 团队用 905,746 个 Token 测试了 7 种 AI 文档切分方案,结论出人意料:最“笨”的按换行符递归切分准确率达 69%,远超所谓的“智能语义切分”——企业花重金搭建的 RAG 知识库,很可能栽在最基础的切分环节。

这是什么

RAG(检索增强生成,让大模型先检索企业内部文档再回答问题的技术)是目前企业用 AI 的主流方式。但大模型一次读不完几十页的长文档,必须先切片,这个步骤叫 Chunking。

我们注意到,很多开发者花大量时间调 Prompt 或换更贵的模型,却对切分策略“拍脑袋”:固定切 512 字,加 50 字重叠,完事。这是 RAG 质量差的根本原因。当一段文本被压缩成向量(Embedding,将文本转为数学向量以便比对相似度)时,如果 chunk 里混杂多个主题,语义就会被稀释;如果合同里的当事方、日期被切到不同 chunk 里,结构信息就彻底丢失。切分质量决定了后续所有优化的上限。

行业怎么看

行业正形成共识:在切分上,简单往往胜过花哨。Vecta 的基准测试表明,Recursive(按换行、句号等自然边界递归切割)以 69% 准确率稳居第一,而理论完美的 Semantic Chunking(按语义相似度断裂来切分)只有 54%。后者每次切分都要调用向量化接口,成本高、速度慢,且切出来的块大小极不稳定,实际表现反而更差。

在生产环境,行业更推荐 Parent-Child(父子切分)策略:用小块精准检索,命中后向大模型提供所属的完整大块上下文。但值得我们关心的是,Reddit 上有尖锐的反对声音指出:当前的切分优化只是在迎合向量化的便利性,根本不符合人类使用文档的逻辑。无论哪种自动化切分,都无法真正理解特定业务文档的结构逻辑,过度追求切分算法而忽略文档本身的排版与元数据,是本末倒置。

对普通人的影响

对企业 IT:采购 AI 知识库时,别被“智能语义切分”等概念忽悠,应优先考察供应商是否支持按文档标题层级、段落结构的切分调试能力。

对个人职场:用 AI 处理长文档时,自己先做好排版(多用换行和层级标题),你的文档结构越清晰,AI 切分越准,给出的回答就越靠谱。

对消费市场:各类 AI 阅读助手如果频繁“胡说八道”,往往不是模型智商低,而是它后端把你的文档“切碎”时切错了位置,丢失了关键上下文。