这是什么
一份5400字的技术文档,四种切法能产出12到24个质量截然不同的知识块 — 文档分块策略直接决定AI能读到什么。
RAG(检索增强生成,让大模型先检索相关文档再生成答案的技术)已成为企业落地AI的标配。但很多人忽略了:喂给AI的“资料”不是原始文档,而是被切成小块的“文档块”。分块(Chunking)就是决定在哪下刀的切分策略。
我们注意到,目前主流有四种策略,效果与成本递增:
- 固定大小分块:按字符数硬切。最简单,但极易切断句子,信息残缺。
- 递归字符分块:按段落、句子等优先级智能切分。兼顾语义,但对中文支持较弱。
- 语义分块:计算句子间相似度,在语义断裂处切开。块内一致性最高,但需调用Embedding API(将文本转为向量的接口),成本显著增加。
- 文档结构分块:按标题层级切分。最符合人类阅读逻辑,但仅适用于结构化文档。
我们的判断是:分块不是预处理的小事,而是RAG效果的胜负手。切得不好,再强的模型也只能看到“残缺的拼图”。
行业怎么看
行业已形成共识:分块质量与RAG检索准确率强相关。优化分块,是投入产出比最高的环节之一。LangChain等主流框架已内置多种策略,降低了技术门槛。
但值得关心的是,反对声音同样存在。一种观点认为,对于结构良好的文档(如规范的产品手册),直接使用文档结构分块已足够,过度追求语义分块带来的精度提升,无法抵消其增加的API调用成本与延迟。另一种风险在于,语义分块严重依赖Embedding模型质量,模型本身对业务术语理解不佳时,反而会“聪明反被聪明误”,切错位置。
因此,我们的判断是:没有“最好”的策略,只有“最匹配”的策略。选择时需在文档结构、业务精度要求与成本之间权衡。
对普通人的影响
对企业IT:部署内部知识库时,分块策略的选择比选择哪个大模型,更直接影响最终的问答准确率,应成为项目初期的重点验证对象。
对个人职场:在AI落地项目中,理解并主导文档处理与分块策略的人,正从“开发者”转变为“知识架构师”,这是新的关键角色。
对消费市场:未来不同AI产品回答同样问题时的质量差异,很大程度将源于这种“看不见的”数据处理功夫,而非单纯的模型参数大小。