GraphRAG落地难，微软工业级RAG Agent实施方案 - 链载Ai

一、RAG面临的问题

RAG系统需要处理来自不同领域的复杂数据，包括文本、表格、图表等，这些数据的格式多样，且包含大量非文本信息。

现有的RAG方法在处理这些复杂数据时，存在以下问题：

知识源多样性复杂

RAG系统需要处理来自不同领域的多样化数据，这些数据不仅格式多样（如扫描图像、数字文本文件、网页数据等），还可能包含专业数据库。
现有的RAG方法在处理这些复杂数据时，难以高效提取专业领域知识。

领域专业性不足：

在专业领域中，知识往往以领域特定的术语、专业知识和独特的逻辑框架呈现。
现有的RAG方法在处理这些领域特定知识时，表现出明显的不足，难以准确提取、理解和组织专业领域的知识和逻辑。

一刀切的解决方案：

现有的RAG方法通常采用“一刀切”的策略，未能充分考虑不同任务的复杂性和多样性。
这种策略在处理复杂任务时，往往无法满足实际应用的需求。

二、RAG系统能力的解构

为了能全面的解构RAG系统，可以从三个角度对 RAG 框架进行了概念化：

知识库
任务分类
系统开发

2.1 知识库

在工业应用中，专业知识主要源于特定领域（如制造、能源和物流）多年积累的数据。
这些来源不仅文件格式多样，而且包含大量的多模态内容，例如表格、图表和图形，这些对于解决问题也至关重要。
专业领域内的文件之间通常存在功能连接，例如：超链接、参考文献和关系数据库链接，这些连接明确或隐含地反映了专业领域内知识的逻辑组织。

那么，如何组织庞杂的知识库呢？

由于知识库的架构和质量直接影响检索方法及其性能，将知识库构建为多层异构图，记为，其相应的节点和边由表示。
图节点可以包括：文档、章节、片段、图形、表格以及来自蒸馏知识的自定义节点。
边表示这些节点之间的关系，封装了图中的相互连接和依赖关系。
多层异构图包含三个不同的层：信息资源层、语料库层和蒸馏知识层。
每层对应于不同的信息处理阶段，代表知识中不同粒度和抽象级别。

2.2 任务分类

当前的检索增强生成 (RAG) 框架经常忽略不同任务固有的复杂性和后勤需求，通常采用一种一刀切的方法。

然而，即使拥有全面的知识检索，目前的 RAG 系统也无法同样有效地处理难度不同的任务。

因此，对任务进行分类并分析克服每个类别固有挑战的典型策略至关重要。

可以将任务的难度划分为4个方面：

知识的相关性和完整性：知识库中是否存在必要信息以及它对主题的覆盖程度。
知识提取的复杂性：准确识别和检索所有相关知识的难度，尤其是在知识分散在多个来源或隐含地嵌入文本中的情况下。
理解和推理的深度：理解检索到的信息、建立联系和执行多步推理所需的认知和推理处理水平。
知识利用的有效性：应用提取的知识来制定回应所涉及的复杂性，包括综合、组织和生成见解或预测。

在对行业中真实的 RAG 任务进行分类时，通常需要关注知识提取、理解、组织和利用的过程，以提供结构化和有见地的回应。

因此，大致可以分为四类问题：

事实性问题（Factual Questions）

这类问题，直接从语料库中提取具体的、明确的信息，依靠检索机制来识别相关事实。
如果成功检索到相关事实，则可以有效地回答此类问题。

可链接推理问题（Linkable-Reasoning Questions）

桥接问题涉及顺序连接多个实体以得出答案
定量问题：需要基于检索到的数据进行统计分析
比较问题：侧重于比较两个实体的特定属性
摘要总结类问题：需要将来自多个来源或大量文本的信息浓缩或综合成简洁连贯的摘要，并且通常涉及整合关键点、识别主题或根据汇总内容得出结论。

需要从不同的来源收集相关信息或执行多步骤推理。
由于链接和推理过程存在差异，可以将此类别进一步细分为四个子类别：桥接问题、定量问题、比较问题和摘要总结问题。

预测类问题（Predictive Questions）

这类问题，答案并非直接存在于原文中，也可能并非纯粹的事实性内容，需要基于现有事实进行归纳推理和预测。
为了利用大型语言模型 (LLM) 或其他外部预测工具的预测能力，必须收集和组织相关知识以生成结构化数据，以便进一步分析。
例如：检索具体批准日期的生物类产品，并计算每年批次的总数，将其组织成按年份索引的时间序列数据，用于预测。

创意类问题（Creative Questions）

从专业的知识库中挖掘有价值的特定领域逻辑，并引入新颖的视角，从而创新和改进现有的解决方案。
解决创意类问题需要基于事实信息的可用性以及对基本原理和规则的理解进行创造性思考。

2.3 系统开发

基于上述4类问题，可以将RAG系统分为四个不同级别，这种分层方法有助于RAG系统的分阶段开发，允许通过迭代模块改进和算法优化来逐步增强其能力。
从简单的信息检索到高级预测和创造性问题解决的演变。
每个级别都代表着与知识库进行更复杂交互的一步，要求RAG系统展现更高水平的理解、推理和创新能力。
从L0到L4，高级系统可以继承来自低级系统的模块，并添加新模块以增强系统功能。

其中：“PA”代表文件解析，“KE”代表知识提取，“RT”代表知识检索，“KO”代表知识组织，“KR”代表知识中心推理。

与L1相比，L2不仅引入了任务分解和协调模块以利用迭代检索-生成路由，还包含更高级的知识提取模块。其中，深绿色所示的蒸馏知识生成。
在L3中，对预测性提问的日益重视需要加强对知识组织和推理的要求。因此，知识组织模块引入了用于知识结构化和知识归纳的附加子模块，如图中深橙色所示。以知识为中心的推理模块已扩展到包括一个预测子模块，以深紫色突出显示。
在L4中，从已建立的知识库中提取复杂的理由非常具有挑战性。为了解决这个问题，引入了多代理规划模块来从不同的角度激活推理。

三、工业级RAG+Agent架构

这里介绍PIKE-RAG 框架，包括7个模块：

文档解析
知识提取
知识存储
知识检索
知识组织
以知识为中心的推理
任务分解和协调

每个组件都可以根据系统能力水平的需求进行定制，以支持不同复杂度的任务。

后文，将根据上面提到的系统开发的4个级别，按照顺序来详细的阐述工业级RAG的构建流程与细节。

3.1 构建知识库：L0级的任务

L0 系统的主要目标：处理和构建特定领域的文档，将其转换为机器可读的格式，并将提取的知识组织到一个异构图中。
L0 系统包含几个关键模块：文件解析、知识提取和知识存储。

3.1.1 文档解析

鉴于特定领域的文档通常包含复杂的表格、图表和图形，基于文本的转换可能会导致信息丢失并破坏固有的逻辑结构。
建议对这些文件进行布局分析，并保留图表和图形等多模态元素。
布局信息可以帮助分块操作，保持分块文本的完整性，而图形和图表可以通过视觉语言模型 (VLM) 来描述，以辅助知识检索。
这种方法确保保留原始文档的完整性和丰富性，从而提高 RAG 系统的效率。

3.1.2 知识组织

将知识库解构为多层异构图，表示不同层次的信息粒度和抽象程度。

图能捕获数据各个组成部分（例如，文档、章节、片段、图表和表格）之间的关系，并将它们组织成节点和边，反映它们的相互连接和依赖关系。

这种多层结构包含：信息资源层、语料库层和蒸馏知识层，能够为下游任务提供语义理解和基于原理的检索。

信息资源层

该层主要建立所有文章（信息源）之间的关系。
捕获各种信息源，将它们视为源节点，其边表示它们之间的参照关系（例如：论文之间的引用与被引用关系）。
这有助于交叉引用和上下文化知识，为依赖多个来源的推理奠定基础。

语料库层

该层主要对单篇文章进行解析。
将解析后的信息，组织成章节和片段，同时保留文档的原始层次结构。
多模态内容（如表格和图表）由大型语言模型 (LLM) 总结并作为片段节点集成，确保多模态知识可供检索。
此层能够进行不同粒度级别的知识提取，允许跨不同内容类型进行准确的语义分块和检索。

蒸馏知识层

对语料库进一步被提炼成结构化的知识形式（例如，知识图谱、原子知识和表格知识）。
可以利用命名实体识别 (NER)和关系提取的技术，确保蒸馏后的知识捕获关键的逻辑关系和实体，从而支持高级推理过程。
通过在蒸馏层中组织这些结构化知识，可以增强系统基于更深层次的特定领域知识进行推理和综合的能力。

蒸馏知识层，包含的知识有：

知识图谱

使用大语言模型 (LLM) 从语料库文本中提取实体及其关系，生成“节点-边-节点”结构形式的知识单元，其中节点表示实体，边表示它们之间的关系。
然后将所有知识单元整合起来构建一个图。

原子知识

将语料库文本划分为一组原子语句，即：将单个句子视为一个原子知识单元。
通过将这些原子语句与语料库节点之间的关系结合起来，生成原子知识。

表格知识

从语料库文本中提取具有指定类型和关系的实体对。
这些实体对被视为知识单元，可以组合起来构建表格知识。

3.2 关注事实问题：L1级的任务

L1 系统在 L0 系统的基础上，引入了知识检索和知识组织，实现了其检索和生成能力。

专业术语和别名的丰富性会影响分块检索的准确性，不合理的分块会破坏语义连贯性并引入噪声干扰。

3.2.1 分块增强模块

首先，根据全文头部的文本，生成一个初始摘要
然后，滑动一个窗口，取一个固定长度的文本块。将当前窗口的文本块与初始摘要，送入大模型中，进行分块。得到当前窗口真实chunk和该chunk的摘要，并保存起来。
接着，再滑动一个固定的窗口得到新的文本块，与2中生成的摘要一起，送入大模型中进行分块。得到当前窗口真实chunk和该chunk的摘要
重复第3步，直到整个文本被分割并总结。

3.2.2 自动标注

在特定领域的 RAG 场景中，语料库通常以正式、专业和严谨的表达内容为特征，而提出的问题通常以简洁易懂的口语表达。
这种差异引入了领域差距，不利地影响了片段检索的准确性，尤其是在用于此目的的嵌入模型的局限性方面。
为了解决领域差距的问题：通过预处理语料库以提取全面的特定领域标签集合或建立标签映射规则。这种基于标签的领域自适应可用于查询重写或顺序信息检索框架内的关键字检索，从而提高检索过程的查全率和查准率。

首先，在只有语料库可用的情况下，使用精心设计的提示来利用大型语言模型 (LLM) 从语料库中提取语义标签，从而形成一个全面的语料库标签集合。
当有可用的实用问答样本时，对查询和相应的检索到的答案片段都进行语义标签提取。利用从片段和查询中提取的标签集，利用大语言模型 (LLM) 来映射跨域语义标签并生成标签对集合。
建立语料库标签集合和标签对集合后，可以从查询中提取标签，并在集合中识别相应的映射标签。
然后，这些映射标签用于增强后续的信息检索过程，从而提高查全率和查准率。

3.2.3 多粒度检索

图的每一层（例如，信息源层、语料库层、蒸馏知识层）都代表不同抽象级别和粒度的知识，允许系统以各种规模探索和检索相关信息。

例如：查询可以映射到整个文档（信息源层）或特定的文本片段（语料库层），确保可以根据给定任务在适当的级别检索知识。

具体的做法如下：

首先，计算查询和图节点之间的相似度分数，以衡量查询与检索到的知识之间的匹配程度。
然后，将这些分数，通过图的各层传播，可以在广泛的上下文（例如，整个文档）上检索，也可以在更精细的细节（例如，特定片段或蒸馏知识）检索。同时计算检索块的相似度得分
最终，通过聚合操作，聚合来自其他层和节点的得分，得到检索到的片段的相似度分数，确保知识提取和利用在事实问答中的精度和效率都得到优化。
整个检索过程可以是迭代的，根据通过任务分解生成的子查询改进结果，进一步增强系统生成准确且与上下文相关的答案的能力。