链载Ai
标题:
RAG 中你需要知道的 5 种分块技术
[打印本页]
作者:
链载Ai
时间:
前天 11:32
标题:
RAG 中你需要知道的 5 种分块技术
分块在 RAG 应用中的重要性。对于提高 LLM 性能至关重要,能使 RAG 应用更智能、更快速、更高效。
固定大小分块
方法:将文本分割成固定大小的块,不考虑内容的自然断点或结构。
优点:简单、成本效益高。
缺点:缺乏上下文意识。
改进:使用重叠块,让相邻块共享部分内容。
递归分块
方法:先用主要分隔符(如段落)分割,如果块太大,再用次要分隔符(如句子)递归分割。
优点:尊重文档结构,灵活适用于各种场景。
基于文档结构的分块
方法:根据文档的自然分区(如标题或章节)创建块。
优点:对结构化数据(如 HTML、Markdown、代码文件)非常有效。
缺点:对缺乏明确结构的数据效果较差。
语义分块
方法:将文本分成有意义的单位(如句子或段落),向量化后基于余弦距离合并成块。
特点:当检测到明显的上下文转换时形成新块。
基于LLM的分块
方法:使用语言模型生成语义独立的句子或命题作为块。
优点:高度准确。
缺点:计算需求最高。
欢迎光临 链载Ai (https://www.lianzai.com/)
Powered by Discuz! X3.5