将大型文档拆分为较小的部分是影响检索增强生成 (RAG) 系统性能的一个基本但关键的因素

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;text-align: center;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;">将大型文档拆分为较小的部分是影响检索增强生成 (RAG) 系统性能的一个基本但关键的因素。用于开发 RAG 系统的框架通常提供多种选项可供选择。在本文中，我想介绍一种新的选项，该选项尝试借助句子嵌入来识别主题的变化，以便在这些点进行细分。这为 RAG 系统的嵌入步骤奠定了基础，可以为编码主题而不是多个主题混合的文本部分找到向量。我们在主题建模的背景下的一篇论文中介绍了这种方法，但它也适用于 RAG 系统。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-wrap: wrap;">RAG 系统

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;">检索增强生成 (RAG) 系统是一种机器学习模型，它结合了基于检索的方法和基于生成的方法，以提高其输出的质量和相关性。它首先根据输入查询从大型数据集中检索相关文档或信息。然后，它使用生成模型（例如基于 Transformer 的语言模型）来使用检索到的信息生成连贯且上下文合适的响应或内容。这种混合方法增强了模型提供准确和信息丰富的响应的能力，尤其是在复杂或知识密集型任务中。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-wrap: wrap;">其他拆分选项

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;">在我们更详细地研究该过程之前，我想介绍一些用于文档拆分的其他标准选项。我将使用广泛使用的 Langchain 框架来展示示例。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-wrap: wrap;">LangChain 是一个强大的框架，旨在协助完成各种自然语言处理 (NLP) 任务，主要侧重于应用大型语言模型。其基本功能之一是文档拆分，它使用户能够将大型文档分解为更小、更易于管理的块。以下是 LangChain 中文档拆分的关键功能和示例：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: normal;text-wrap: wrap;">LangChain 中文档拆分的关键功能

递归字符文本拆分器：此方法通过基于字符递归划分文本来拆分文档，确保每个块都低于指定的长度。这对于具有自然段落或句子中断的文档特别有用。
标记拆分器：此方法使用标记拆分文档。在处理具有标记限制的语言模型时，这很有用，可确保每个块都符合模型的约束。
句子拆分器：此方法在句子边界处拆分文档。它非常适合维护文本的上下文完整性，因为句子通常代表完整的思想。
正则表达式拆分器：此方法使用正则表达式来定义自定义拆分点。它提供了最高的灵活性，允许用户根据特定于其用例的模式拆分文档。
Markdown 拆分器：此方法专为 Markdown 文档量身定制。它根据 Markdown 特定的元素（如标题、列表和代码块）拆分文本。

LangChain 中文档拆分的示例

1. 递归字符文本拆分器

 
from langchain.text_splitter import RecursiveCharacterTextSplitter

text = "Your long document text goes here..."
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

2. 标记拆分器

 
from langchain.text_splitter import TokenSplitter

text = "Your long document text goes here..."
splitter = TokenSplitter(max_tokens=512)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

3. 句子拆分器

 
from langchain.text_splitter import SentenceSplitter

text = "Your long document text goes here..."
splitter = SentenceSplitter(max_length=5)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

4. 正则表达式拆分器

 
from langchain.text_splitter import RegexSplitter

text = "Your long document text goes here..."
splitter = RegexSplitter(pattern=r'\n\n+')
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

5. Markdown 拆分器

 
from langchain.text_splitter import MarkdownSplitter

text = "Your long markdown document goes here..."
splitter = MarkdownSplitter()
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

介绍一种新方法

在数字内容分析中，将大型文档分割成连贯的基于主题的部分是一项重大挑战。上述传统方法通常无法准确检测主题发生变化的微妙 juncture。在人工智能、计算机、数据科学和应用国际会议 (ACDSA 2024) 上发表的一篇论文中，我们提出了一种解决此问题的创新方法。

核心挑战

大型文档（例如学术论文、冗长的报告和详细的文章）非常复杂，包含多个主题。传统的分割技术，从简单的基于规则的方法到高级机器学习算法，都难以识别主题转换的精确点。这些方法通常会遗漏微妙的过渡或错误地识别它们，从而导致片段化或重叠的部分。

我们的方法利用句子嵌入的力量来增强分割过程。该方法利用 Sentence-BERT (SBERT) 生成单个句子的嵌入，从而定量地测量它们的相似性。随着主题的变化，这些嵌入反映了向量空间的变化，表明了潜在的主题转换。

查看该方法的每个步骤：

1. 使用句子嵌入

生成嵌入：

该方法采用 Sentence-BERT (SBERT) 为单个句子生成嵌入。SBERT 创建封装了语义内容的句子的密集向量表示。
然后比较这些嵌入，以识别连续句子之间的连贯性。

相似度计算：

使用余弦相似度或其他距离度量（如曼哈顿距离或欧几里得距离）来测量句子之间的相似度。
我们的想法是，同一主题内的句子将具有相似的嵌入，而来自不同主题的句子将显示出相似度的下降。

2. 计算间隔分数

定义参数 n:

设置参数 n，指定要比较的句子数量。例如，如果 n=2，则将两个连续的句子与下一对句子进行比较。
n 的选择会影响比较中考虑的上下文长度，在捕获详细转换和计算效率之间取得平衡。

计算余弦相似度:

对于文档中的每个位置，算法都会提取当前位置前后 n 个句子。
然后计算这些句子序列嵌入之间的余弦相似度，称为“间隔分数”。
这些间隔分数存储在一个列表中，以供进一步处理。

间隔分数示例 / 图片由作者提供

3. 平滑处理

解决噪声问题:

由于文本的微小差异，原始间隔分数可能会有噪声。为了解决这个问题，应用了平滑算法。
平滑处理涉及在由参数 k 定义的窗口内对间隔分数进行平均。

选择窗口大小 k:

窗口大小 k 决定了平滑的程度。k 值越大，平滑程度越高，降低了噪声，但可能会丢失细微的转换。较小的 k 值保留了更多细节，但可能会引入噪声。
平滑后的间隔分数可以更清晰地指示主题转换的位置。

平滑处理后的间隔分数示例 / 图片由作者提供

4. 边界检测

识别局部最小值:

分析平滑后的间隔分数，以识别局部最小值和潜在的主题转换点。
通过将局部最小值与前后值的差值求和来计算每个局部最小值的深度分数。

设置阈值 c:

使用阈值参数 c 来确定重要的边界。c 值越高，段数越少，段落越重要；c 值越低，段数越多，段落越小。
超过平均深度分数 c 倍标准差的边界被认为是有效的分割点。

分割示例 / 图片由作者提供

5. 聚类段落

处理重复的主题:

较长的文档可能会在不同的位置重新讨论类似的主题。为了解决这个问题，算法将内容相似的段落进行聚类。
这涉及将段落转换为嵌入，并使用聚类技术合并相似的段落。

减少冗余:

聚类有助于减少冗余，确保每个主题都有唯一的表示，从而提高分割的整体连贯性和准确性。

算法伪代码

间隔分数计算:

间隔分数平滑:

边界检测:

计算每个局部最小值的深度分数。
使用参数 'c' 应用阈值处理，以确定重要的分割点。

未来方向

该研究概述了进一步增强该方法的几个研究方向：

自动参数优化:使用机器学习技术动态调整参数。
更广泛的数据集试验:在多样化的大型数据集上测试该方法。
实时分割:探索动态文档的实时应用。
模型改进:集成更新的 Transformer 模型。
多语言分割:使用多语言 SBERT 将该方法应用于不同的语言。
层次分割:研究多级分割，以进行详细的文档分析。
用户界面开发:创建交互式工具，以便更轻松地调整分割结果。
与 NLP 任务的集成:将算法与其他自然语言处理任务相结合。

结论

我们的方法提出了一种复杂的文档分割方法，将传统原理与尖端的句子嵌入相结合。通过利用 SBERT 以及先进的平滑和聚类技术，该流程为大型文档中的准确主题建模提供了一种强大而有效的解决方案。