SAC-KG：利用大型语言模型一键构建领域知识图谱 - 中科大

显示全部楼层

ingFang SC", -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Ubuntu, "Helvetica Neue", Helvetica, Arial, "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;word-break: break-word;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">本文提出了一种名为SAC-KG的通用知识图谱（KG）构建框架，旨在利用大型语言模型（LLMs）作为领域知识图谱的自动构造者。

ingFang SC", -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Ubuntu, "Helvetica Neue", Helvetica, Arial, "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;word-break: break-word;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">[2410.02811] SAC-KG: Exploiting Large Language Models as Skilled Automatic Constructors for Domain Knowledge Graphs

ingFang SC", -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Ubuntu, "Helvetica Neue", Helvetica, Arial, "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;word-break: break-word;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">https://arxiv.org/abs/2410.02811

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用大型语言模型（LLMs）作为熟练的自动构造器，来构建领域知识图谱（KGs）。现有的知识图谱构建方法严重依赖人工干预，这限制了其在实际场景中的应用。
研究难点：该问题的研究难点包括：输入的上下文噪声和输出中的知识幻觉。上下文噪声是指原始文本中包含大量与领域无关的信息，可能会干扰LLMs的性能；知识幻觉是指LLMs可能生成内容不准确或与源内容不符的三元组。
相关工作：该问题的研究相关工作有：基于规则的知识图谱构建方法、基于LLMs的方法（如OpenIE6、Stanford OIE、DeepEx、PIVE等）。这些方法在处理上下文噪声和知识幻觉方面存在不足。

研究方法

这篇论文提出了一个名为SAC-KG的通用知识图谱构建框架，用于解决领域知识图谱构建中的自动化、精确性和可控性问题。具体来说，SAC-KG包括三个主要组件：生成器（Generator）、验证器（Verifier）和剪枝器（Pruner）。

生成器（Generator）：生成器的作用是从原始领域语料库和开源知识图谱（如DBpedia）中检索相关信息，并将其作为输入提供给LLMs，生成特定领域的一级知识图谱。生成器采用了领域语料库检索器和开放知识检索器：

领域语料库检索器：将领域语料库分割成句子，并根据实体出现的频率进行排序，最后将排序后的句子连接成一个固定长度的文本输入到LLMs。
开放知识检索器：对于开源知识图谱中的实体，提供相关的三元组作为示例；对于不在开源知识图谱中的实体，将其分词后重新检索；对于仍不匹配的实体，随机选择十个三元组作为提示。

验证器（Verifier）：验证器的作用是检测和过滤掉生成器生成的错误三元组。验证器包括两个步骤：错误检测和错误校正：

错误检测：使用RuleHub中挖掘的超过7000条规则标准，对生成的三元组进行数量检查、格式检查和冲突检查。
错误校正：根据检测到的错误类型，提供相应的提示，并重新提示LLMs生成正确的三元组。

剪枝器（Pruner）：剪枝器的作用是确定生成的三元组是否需要进一步生成下一级知识图谱。剪枝器使用一个在DBpedia上微调的T5模型作为二元分类器，输入每个正确三元组的尾实体，输出“生长”或“剪枝”。

实验设计

数据收集：从专业书籍、网页和家谱数据中收集与水稻领域相关的原始文本数据，共计70本专业书籍、1522个网页和24000条家谱记录。
实验设置：使用ChatGPT、Qwen 7B、Llama2 7B和Llama2 13B作为LLMs的后端模型。生成器的温度参数设置为0.1，最大序列长度为2000个令牌。剪枝器使用低秩适应（LORA）高效微调T5模型，训练2个epoch，批量大小为64，学习率为0.001。

结果与分析

主要结果：SAC-KG在知识图谱构建任务中表现出色，精度达到89.32%，比现有最先进的方法提高了20%以上的精度。基于规则的方法在精度和领域特异性指标上表现较差，而基于LLMs的方法虽然有所改进，但仍不理想。
一致性评估：使用GPT-4进行自动评估，并与人类评估结果进行对比。结果表明，GPT-4评估与人类评估结果具有较高的一致性，精度值为0.906，召回值为0.951，F1得分为0.928，Cohen's Kappa系数为0.613。
消融研究：通过消融实验分析了SAC-KG中每个组件的贡献。结果表明，缺少任何组件都会导致整个框架性能下降，特别是剪枝器和开放知识检索器对性能的影响更为显著。

总体结论

本文提出了一种名为SAC-KG的新颖自动领域知识图谱构建框架，通过集成生成器、验证器和剪枝器，实现了从领域语料库自动构建大规模、高精度的知识图谱。实验结果表明，SAC-KG在知识图谱构建任务中表现出色，精度达到89.32%，比现有最先进的方法提高了20%以上的精度。未来的研究方向包括探索低成本的方法将领域知识注入LLMs，以及将该方法用于显式解释LLMs的学习知识。

论文评价

优点与创新

自动化程度高：SAC-KG通过生成器、验证器和修剪器三个组件，实现了从原始领域语料库到领域知识图谱的自动构建，显著提高了构建过程的自动化程度。
精度高：实验结果表明，SAC-KG在构建领域知识图谱时，精度达到了89.32%，比现有的最先进方法提高了20%以上的精度。
领域专业化：SAC-KG利用大型语言模型（LLMs）作为领域专家，生成的知识图谱具有高度的专业化特性，能够生成与特定领域相关的三元组。
可控制性强：通过引入开放知识检索器和修剪器，SAC-KG能够有效地控制生成过程，确保生成的三元组格式正确且符合领域要求。
大规模构建能力：SAC-KG能够在超过一百万个节点的规模上自动构建领域知识图谱，展示了其在处理大规模数据集上的优势。
一致性评估：通过与GPT-4和人类评估的一致性比较，验证了SAC-KG生成的知识图谱的高质量和可靠性。

不足与反思

领域知识注入局限：虽然SAC-KG能够构建领域特定的知识图谱，但目前无法将领域知识注入或更新到LLMs中。未来工作将探索低成本的方法来实现这一目标。
计算成本高：未来的研究将考虑使模型能够自主进行验证，这将显著提高推理的计算成本。
召回率提升：尽管SAC-KG在某些案例中表现出色，但在特定情况下提高召回率以更好地利用领域语料库信息将是未来的研究方向。

关键问题及回答

问题1：SAC-KG框架中的生成器是如何利用领域语料库检索器和开放知识检索器来生成特定实体的一级知识图谱的？

生成器通过两个主要策略来生成特定实体的一级知识图谱：领域语料库检索器和开放知识检索器。

领域语料库检索器：首先，生成器将领域语料库分割成句子，并按实体在文本中出现的频率进行排序。然后，将这些句子拼接成一个固定长度的文本输入到大型语言模型（LLMs）中。这个过程确保了输入到LLMs的文本与特定实体高度相关，减少了上下文噪声的影响。
开放知识检索器：其次，生成器利用开放知识图谱（如DBpedia）来提供相关的三元组作为例子。对于开源知识图谱中的实体，生成器提供相关的三元组作为例子；对于不在开源知识图谱中的实体，生成器进行分词并检索相关三元组；对于仍不匹配的实体，生成器随机选择十个三元组作为提示。这些例子帮助LLMs生成格式正确的三元组，增强了生成内容的质量和可控性。

通过这两个策略，生成器能够有效地从领域语料库和开源知识图谱中检索相关上下文，并结合输入到LLMs中，生成特定实体的一级知识图谱。

问题2：SAC-KG框架中的验证器是如何检测和过滤掉生成器生成的错误三元组的？

验证器通过两个主要步骤来检测和过滤掉生成器生成的错误三元组：错误检测和错误校正。

错误检测：验证器使用RuleHub中挖掘的超过7000条规则标准，对生成的三元组进行数量检查、格式检查和冲突检查。具体步骤包括：

数量检查：如果生成的三元组数量少于阈值（默认为3），则将其归类为“数量不足”。
格式检查：如果三元组不符合示例格式，或者头实体不匹配预定义的实体，则将其归类为“格式错误”。
冲突检查：验证器对每个三元组进行全面的冲突检测，确保生成的三元组在逻辑上是一致的，例如一个人的出生时间早于其死亡时间，且年龄不为负数。

错误校正：根据检测到的错误类型，验证器提供相应的提示，并重新提示LLMs生成修正后的输出。例如，如果错误类型为“格式错误”，验证器会提示LLMs：“请严格按照示例格式重新生成。”

通过这两个步骤，验证器能够有效地识别和过滤掉生成器生成的错误三元组，确保最终生成的领域知识图谱的高质量和准确性。

问题3：SAC-KG框架中的剪枝器是如何确定生成的三元组是否需要进一步生成下一级知识图谱的？

剪枝器采用在DBpedia上微调的T5模型作为二元分类器，通过输入每个正确三元组的尾实体，确定该尾实体是否需要进一步生成下一级知识图谱。具体步骤如下：

输入处理：剪枝器将每个正确三元组的尾实体作为输入，输入到在DBpedia上微调的T5模型中。
分类输出：T5模型输出“生长”或“剪枝”作为结果。如果输出为“生长”，则表示该尾实体需要进一步生成下一级知识图谱；如果输出为“剪枝”，则表示该尾实体不需要进一步生成。

通过这种方式，剪枝器能够有效地控制知识图谱的生成过程，确保每一层生成的知识图谱都是高质量和相关的。这不仅提高了知识图谱的构建效率，还增强了知识图谱的精确性和领域特异性。