【文末福利送书】StructRAG：通过实时推理混合知识结构化推动RAG系统性能突破 - 链载Ai

检索增强生成（RAG）技术在许多基于知识的任务中有效增强 LLMs，但在知识密集型推理任务中面临挑战。现有RAG方法难以准确识别关键信息并进行全局推理。本文提出了一种新的框架 StructRAG，旨在通过推理时混合信息结构化来增强 LLMs 在知识密集型推理任务中的表现。它能够根据任务需求识别最佳结构类型，将原始文档重构为该结构格式，并基于该结构进行答案推断。

StructRAG核心内容

StructRAG框架致力于解决知识密集型推理任务中的信息分散问题，具体方法包括：

1. 混合结构路由器：根据任务需求选择最适合的结构类型。此路由器利用问题和文档的核心内容来决定最佳结构类型。其工作原理如下：

其中，(C) 是选择的结构类型。

混合结构路由器的工作原理
a.核心内容提取:从文档中提取每篇文档的核心内容，通常是标题或前几个句子。
b.结构类型选择:根据问题和文档的核心内容，从五种候选结构类型中选择最合适的一种:表格(统计任务)、图表(长链任务)、算法(规划任务)、目录(总结任务)和文本块(简单单跳任务)。
c.训练方法:采用基于 DPO算法的训练方法，通过合成-模拟-判断的管道构建训练数据，使模型学习如何选择合适的数据结构类型。

2. 分散知识结构化器：将原始文档转换为结构化知识。该结构化器利用LLM的理解和生成能力，从文档中提取结构化知识。具体的公式为：

这里，是问题，是选择的结构类型，是第篇文档，是提取的结构化知识，是结构化知识的描述。

3. 结构化知识利用器：将复杂问题分解为简单的子问题，并通过结构化知识进行精确的知识提取和最终答案推理。具体的公式如下：

分解子问题:

提取精确知识:

推理最终答案:
其中，是分解的子问题，是所有子问题的精确知识，是最终答案。

4. 混合结构路由器的训练：

数据构建：使用LLMs合成新任务并模拟不同结构类型的解决方案，生成偏好对进行训练。
偏好训练：采用DPO算法训练路由器模块，无需额外的奖励模型。

实验设计

数据集选择：实验选择了Loong基准和Podcast Transcripts数据集。Loong基准包含四个任务（Spotlight Locating, Comparison, Clustering, 和 Chain of Reasoning），每个任务有四种文档长度设置。Podcast Transcripts是一个查询聚焦的摘要任务。
实现细节：基于Qwen2系列模型构建了框架，混合结构路由器使用Qwen2-7B-Instruct作为基础模型并实现DPO训练。分散知识结构化器和结构化知识利用器直接使用Qwen2-72B-Instruct作为基础模型。
训练数据构建：由于缺乏选择最佳结构类型的训练数据，设计了一种合成-模拟-判断的方法来构建偏好对。具体步骤包括使用LLMs合成新任务、模拟不同结构类型的解决方案，并通过LLM判断生成偏好对。

结果分析

整体结果：StructRAG在大多数任务和文档长度设置中表现优异，特别是在任务复杂性增加时，性能提升更为显著。
模块消融实验：验证了每个模块在StructRAG中的积极作用。移除任何模块都会导致显著的性能下降，表明所有模块都是不可或缺的。其中，混合结构路由器的选择对性能影响最大。

固定结构类型的缺点：实验表明，使用单一固定类型的信息无法在多样任务中取得良好性能。相比之下，选择最适合任务需求的结构类型可以显著提升性能。

总结

本文提出了一种新的框架StructRAG，通过混合信息结构化机制来构建和利用结构化知识，从而有效解决知识密集型推理任务中的信息分散问题。StructRAG包括一个混合结构路由器来精确选择最佳结构类型，然后是一个散布知识结构化器将原始文档转换为结构化知识，最后是一个结构化知识利用器来分解复杂问题并通过构建的结构化知识推断出最终答案。此外，为了获得高性能的混合结构路由器，我们通过合成-模拟-评判流程构建训练数据，然后通过DPO算法实现偏好训练。实验结果表明，StructRAG在多个知识密集型任务中取得了SOAT的性能，尤其在任务复杂性增加时，性能提升更为显著。本文提出了一种有前景的方向，专注于混合结构化知识，以在未来开发更强大的RAG系统。

论文读后感

优势

任务复杂性适应性：能够更好地适应不同复杂度的任务，在任务复杂性增加时，性能提升更为显著。
结构化知识的优势：有效整合和利用分散在不同位置的信息，减少信息检索和整合的难度，提高推理的准确性。
模块化的设计：包括三个明确功能和优化目标的模块，每个模块都对整体框架贡献显著。
高效的训练方法：通过合成-模拟-判断方法构建训练数据，并使用DPO算法训练混合结构路由器，提高了训练效率和模型性能。

不足

结构化知识的局限性：尽管使用了结构化知识，但在某些情况下可能会丢失一些原始信息的文本格式，导致精确匹配率（EM）不高。
计算效率：虽然StructRAG在性能上表现优异，但相对于RQ-RAG方法，其实现速度稍慢，且比GraphRAG方法快得多。
未来工作方向：未来的研究可以进一步探索更高效的结构化知识类型选择和构建方法，以提高整体系统的性能。

类似相关工作

传统RAG：通过将原始文档分割成较短的片段并检索最相关的片段来增强LLMs的表现，但在处理知识密集型任务时表现不佳；
GraphRAG：通过将文本文档中的实体关系三元组提取出来构建图结构来增强LLMs处理复杂问答任务，但仅限于基于三元组的图结构，适用性有限。