 分块在 RAG 应用中的重要性。对于提高 LLM 性能至关重要,能使 RAG 应用更智能、更快速、更高效。 固定大小分块 - 方法:将文本分割成固定大小的块,不考虑内容的自然断点或结构。
 递归分块 - 方法:先用主要分隔符(如段落)分割,如果块太大,再用次要分隔符(如句子)递归分割。
 基于文档结构的分块 - 优点:对结构化数据(如 HTML、Markdown、代码文件)非常有效。
 语义分块 - 方法:将文本分成有意义的单位(如句子或段落),向量化后基于余弦距离合并成块。
 基于LLM的分块 - 方法:使用语言模型生成语义独立的句子或命题作为块。

|