链载Ai

标题: 文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%) [打印本页]

作者: 链载Ai    时间: 5 天前
标题: 文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%)

本次分享一种名为 RAKG(Document-level Retrieval Augmented Knowledge Graph Construction)的框架,旨在解决传统知识图谱构建(KGC)方法在文档级知识图谱构建中的局限性。

一、GraphRAG的局限性

RAKG 框架通过从文本片段中提取预实体,并利用这些预实体作为检索增强生成(RAG)技术的查询,有效解决了 LLMs 在长文本处理中的上下文遗忘问题,降低了核心ference Resolution 的复杂性,并更有效地捕获全局信息和节点间的相互联系,从而提升了模型的整体性能。

二、RAKG的创新点

2.1 拓扑结构覆盖

2.2 关系网络对齐

关系网络的构建是知识图谱构建中的关键环节。 RAKG 提出了一个两步策略:

三、RAKG框架结构

RAKG 框架的整体结构包括以下几个关键步骤:

以“蝴蝶的生命周期”为例:

RAKG 的命名实体识别模块检测到 23 个核心实体,其中“蝴蝶卵”“毛毛虫”和“成年蝴蝶”是中心实体。这些实体在文章中有密集的文本块,表明它们是关键概念。 以“成年蝴蝶”为例,RAKG 检索到描述其五个特征的专业文本块,并从原始知识图谱中检索到与“成年蝴蝶”相关的子图。 通过将这些文本块和子图整合后输入 LLM,RAKG 构建了以“成年蝴蝶”为中心的关系网络,形成了完整的子图。 最终,通过整合所有子图,RAKG 构建了一个系统化的知识图谱,清晰地展示了文章的核心概念及其相互关系。

3.1文档分块与向量化

  1. 文档分块:RAKG 采用动态分块策略,将文档按照句子边界分割为多个文本片段,确保每个片段的语义完整性。具体公式如下:

    其中,表示分割后的文本片段集合,表示第个文本片段。

  2. 向量化处理:对每个文本片段进行向量化处理,得到文本片段的向量表示。具体公式如下:

    其中,表示文本片段的向量集合,表示第个文本片段的向量表示。

3.2 预实体构建

  1. 命名实体识别(NER):对每个文本片段进行逐句 NER,识别出其中的实体,并为每个预实体分配类型和描述属性。具体公式如下:

    其中,表示第个文本片段中识别出的预实体集合,表示所有预实体的集合。

  2. 向量化处理:对每个预实体进行向量化处理,得到预实体的向量表示。具体公式如下:

    其中,表示预实体的向量集合,表示第个预实体的向量表示。

  3. 实体消歧:对识别出的预实体进行相似性检查,将相似度高于阈值的实体放入初步相似实体集合中,然后通过 LLM 进行最终判断,将相似实体合并为一个实体。具体公式如下:

    其中,表示与实体相似的预实体集合,表示经过 LLM 判断后与相同的实体集合。

3.3 关系网络构建

  1. 语料库回溯检索:对于指定的实体 (e),通过检索与实体相关的文本片段,获取与实体相关的语义信息。具体公式如下:

    其中,表示与实体相关的文本片段集合。

  2. 图结构检索:对于指定的实体 (e),从初始知识图谱中检索与实体相关的节点及其关系网络。具体公式如下:

    其中,表示与实体相关的节点集合。

  3. 关系网络生成与评估:将检索到的文本片段和关系网络信息整合后输入 LLM,生成实体的关系网络,并通过 LLM 对生成的三元组进行真实性评估。具体公式如下:

    其中,表示实体的关系网络。

3.4 知识图谱融合

  1. 实体合并:将新构建的知识图谱中的实体与初始知识图谱中的实体进行合并,确保知识图谱中实体的唯一性。
  2. 关系整合:将新构建的知识图谱中的关系与初始知识图谱中的关系进行整合,形成更全面的知识图谱。

四、数据集与评价指标

  1. 数据集:本文使用 MINE 数据集进行实验,该数据集包含 105 篇文章,每篇文章约 1000 字,涵盖历史、艺术、科学、伦理和心理学等多个领域。通过 LLM 从每篇文章中提取 15 个事实,并手动验证其准确性和相关性。通过检查知识图谱是否能够捕捉这些事实,评估文本到知识图谱提取器的有效性。
  2. 基线模型







欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5