返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RAG 中你需要知道的 5 种分块技术

[复制链接]
链载Ai 显示全部楼层 发表于 前天 11:32 |阅读模式 打印 上一主题 下一主题

分块在 RAG 应用中的重要性。对于提高 LLM 性能至关重要,能使 RAG 应用更智能、更快速、更高效。

固定大小分块

  • 方法:将文本分割成固定大小的块,不考虑内容的自然断点或结构。
  • 优点:简单、成本效益高。
  • 缺点:缺乏上下文意识。
  • 改进:使用重叠块,让相邻块共享部分内容。

递归分块

  • 方法:先用主要分隔符(如段落)分割,如果块太大,再用次要分隔符(如句子)递归分割。
  • 优点:尊重文档结构,灵活适用于各种场景。

基于文档结构的分块

  • 方法:根据文档的自然分区(如标题或章节)创建块。
  • 优点:对结构化数据(如 HTML、Markdown、代码文件)非常有效。
  • 缺点:对缺乏明确结构的数据效果较差。

语义分块

  • 方法:将文本分成有意义的单位(如句子或段落),向量化后基于余弦距离合并成块。
  • 特点:当检测到明显的上下文转换时形成新块。

基于LLM的分块

  • 方法:使用语言模型生成语义独立的句子或命题作为块。
  • 优点:高度准确。
  • 缺点:计算需求最高。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ