链载Ai

标题: 文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%) [打印本页]

作者: 链载Ai 时间: 5 天前
标题: 文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%)

本次分享一种名为 RAKG（Document-level Retrieval Augmented Knowledge Graph Construction）的框架，旨在解决传统知识图谱构建（KGC）方法在文档级知识图谱构建中的局限性。

一、GraphRAG的局限性

传统 KGC 方法主要依赖于专家系统和基于规则的模式匹配，虽然能够保证一定的知识准确性，但面临高昂的人力成本和较差的可扩展性。
随着深度学习的发展，基于神经网络的端到端构建方法显著提高了关系抽取的效率。然而，这些方法大多依赖于复杂的特征工程和大量的标注数据，模型性能容易受到数据质量和分布变化的影响。
如复杂的实体消歧、僵化的模式定义以及跨文档知识整合不足等问题

RAKG 框架通过从文本片段中提取预实体，并利用这些预实体作为检索增强生成（RAG）技术的查询，有效解决了 LLMs 在长文本处理中的上下文遗忘问题，降低了核心ference Resolution 的复杂性，并更有效地捕获全局信息和节点间的相互联系，从而提升了模型的整体性能。

RAKG 重点关注文档级知识图谱的构建，假设每篇文档对应一个理想的知识图谱，并基于此建立了一个定量评估系统。
采用双重评估标准：

一是拓扑结构的完整性，即构建的知识图谱必须涵盖理想知识图谱中的所有节点；
二是关系网络的相似性，即每个对应节点的关联结构必须与理想知识图谱中对应节点的拓扑关系达到最大相似性。

二、RAKG的创新点

2.1 拓扑结构覆盖

为了解决拓扑结构覆盖问题，RAKG 采用基于句子的命名实体识别（NER）方法，充分利用 LLMs 强大的自然语言处理能力。
逐句 NER 方法：通过逐句分析文本，确保每个句子中的实体都能被准确识别，避免了传统方法中因长文本处理而导致的实体遗漏问题。
预实体概念的引入：预实体作为中间表示单元，降低了实体消歧的复杂性，同时为后续的信息整合提供了便利。

2.2 关系网络对齐

关系网络的构建是知识图谱构建中的关键环节。 RAKG 提出了一个两步策略：

语料库回溯检索，通过检索识别出的实体出现的文本片段，整合多视角的语义信息，并将其输入 LLM 以生成关系网络；
图结构检索，从初始知识图谱中检索与节点相关的信息，并将其整合到输入中，以保持与初始知识图谱的一致性，避免因 LLMs 的幻觉问题而导致的错误关系生成。

三、RAKG框架结构

RAKG 框架的整体结构包括以下几个关键步骤：

文档分块与向量化：

RAKG 采用基于语义完整性的动态分块策略，将文档分割为多个文本片段，并对每个片段进行向量化处理。
这种方法不仅减少了 LLM 每次处理的信息量，还确保了每个片段的语义完整性，从而提高了命名实体识别的准确性。

预实体构建：

通过逐句进行 NER，识别出文本片段中的实体，并为每个预实体分配类型和描述属性。
随后，通过向量相似度检查和 LLM 的最终判断，对相似实体进行消歧处理，确保知识图谱中实体的唯一性。

关系网络构建：

通过语料库回溯检索和图结构检索，获取与实体相关的文本片段和知识图谱信息，并将其输入 LLM 以生成关系网络。
最后，利用 LLM 对生成的三元组进行真实性评估，确保关系网络的准确性和可靠性。

知识图谱融合：

将新构建的知识图谱与初始知识图谱进行融合，包括实体合并和关系整合，以获得更全面的知识图谱。

以“蝴蝶的生命周期”为例:

RAKG 的命名实体识别模块检测到 23 个核心实体，其中“蝴蝶卵”“毛毛虫”和“成年蝴蝶”是中心实体。这些实体在文章中有密集的文本块，表明它们是关键概念。以“成年蝴蝶”为例，RAKG 检索到描述其五个特征的专业文本块，并从原始知识图谱中检索到与“成年蝴蝶”相关的子图。通过将这些文本块和子图整合后输入 LLM，RAKG 构建了以“成年蝴蝶”为中心的关系网络，形成了完整的子图。最终，通过整合所有子图，RAKG 构建了一个系统化的知识图谱，清晰地展示了文章的核心概念及其相互关系。

3.1文档分块与向量化

文档分块：RAKG 采用动态分块策略，将文档按照句子边界分割为多个文本片段，确保每个片段的语义完整性。具体公式如下：
其中，表示分割后的文本片段集合，表示第个文本片段。
向量化处理：对每个文本片段进行向量化处理，得到文本片段的向量表示。具体公式如下：
其中，表示文本片段的向量集合，表示第个文本片段的向量表示。

3.2 预实体构建

命名实体识别（NER）：对每个文本片段进行逐句 NER，识别出其中的实体，并为每个预实体分配类型和描述属性。具体公式如下：
其中，表示第个文本片段中识别出的预实体集合，表示所有预实体的集合。
向量化处理：对每个预实体进行向量化处理，得到预实体的向量表示。具体公式如下：
其中，表示预实体的向量集合，表示第个预实体的向量表示。
实体消歧：对识别出的预实体进行相似性检查，将相似度高于阈值的实体放入初步相似实体集合中，然后通过 LLM 进行最终判断，将相似实体合并为一个实体。具体公式如下：
其中，表示与实体相似的预实体集合，表示经过 LLM 判断后与相同的实体集合。

3.3 关系网络构建

语料库回溯检索：对于指定的实体 (e)，通过检索与实体相关的文本片段，获取与实体相关的语义信息。具体公式如下：
其中，表示与实体相关的文本片段集合。
图结构检索：对于指定的实体 (e)，从初始知识图谱中检索与实体相关的节点及其关系网络。具体公式如下：
其中，表示与实体相关的节点集合。
关系网络生成与评估：将检索到的文本片段和关系网络信息整合后输入 LLM，生成实体的关系网络，并通过 LLM 对生成的三元组进行真实性评估。具体公式如下：
其中，表示实体的关系网络。

3.4 知识图谱融合

实体合并：将新构建的知识图谱中的实体与初始知识图谱中的实体进行合并，确保知识图谱中实体的唯一性。
关系整合：将新构建的知识图谱中的关系与初始知识图谱中的关系进行整合，形成更全面的知识图谱。

四、数据集与评价指标

数据集：本文使用 MINE 数据集进行实验，该数据集包含 105 篇文章，每篇文章约 1000 字，涵盖历史、艺术、科学、伦理和心理学等多个领域。通过 LLM 从每篇文章中提取 15 个事实，并手动验证其准确性和相关性。通过检查知识图谱是否能够捕捉这些事实，评估文本到知识图谱提取器的有效性。
基线模型：

KGGen：由斯坦福可信人工智能研究实验室（STAIR Lab）开发的开源工具，能够自动从纯文本生成知识图谱。
GraphRAG：由微软提出的一种基于知识图谱的检索增强生成框架，通过构建结构化的知识图谱来增强 LLMs 的性能。

评估指标：

实体密度（ED）：表示知识图谱中实体的数量，反映了从文本中提取信息的能力。
关系丰富度（RR）：表示知识图谱中关系的数量，反映了实体关系网络的复杂性。
实体保真度（EF）：通过 LLM 对提取的实体进行评估，确保其与原文本内容的一致性。
关系保真度（RF）：通过 LLM 对提取的关系进行评估，确保其与原文本内容的一致性。
准确性（Accuracy）：通过知识图谱在 MINE 数据集上的问答准确性来评估其语义信息保留能力。

准确性：RAKG 在 MINE 数据集上的准确性达到了 95.81%，显著优于 KGGen（86.48%）和 GraphRAG（89.71%）。
实体密度与关系丰富度：RAKG 构建的知识图谱在实体密度和关系丰富度方面均优于 GraphRAG 和 KGGen。RAKG 能够识别并整合更丰富的实体信息，构建更复杂的实体关系网络。
实体保真度与关系保真度：RAKG 的实体保真度和关系保真度分别为 91.33% 和 94.51%，表明其在提取实体和关系时具有较高的准确性和一致性。通过“LLM 作为评判者”的机制，RAKG 能够有效识别并消除因 LLM 幻觉问题而生成的错误节点和关系。

欢迎光临链载Ai (http://www.lianzai.com/)

Powered by Discuz! X3.5