链载Ai

标题: 一篇大模型在生成式图谱分析方面的综述 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 一篇大模型在生成式图谱分析方面的综述

图(graph是一种基本的数据模型,用于表示社会和自然界中各种实体及其复杂关系,例如社交网络、交通网络、金融网络和生物医学系统。大型语言模型(LLMs)展示了强大的泛化能力,在应对泛化图任务的挑战方面具有优势,它们通过消除训练图学习模型的需要和减少手动注释的成本,提供了显著的优势。

对现有的LLM在图数据上的学习研究进行了全面的综述,总结了基于LLM的生成式图分析(LLM-GGA:LLM-based generative graph analytics )的三个主要组成部分:

图1: LLM-GGA领域的说明:基于LLM的图查询处理(LLM-GQP),它需要将图分析技术和LLM提示融合以进行查询处理;基于LLM的图推理与学习(LLM-GIL),专注于图上的学习和推理;以及采用图-LLM框架来解决非图任务的基于图的LLM应用,例如推荐系统。

LLM-GGA三个主要组成部分细分为六个研究方向:
一、图结构理解
图结构理解任务:评估LLMs是否能够理解图结构,包括简单的查询,如邻居节点、最短路径、连通性,以及更复杂的任务,如最大流问题和拓扑排序。
介绍了21个不同的图结构理解任务,例如图大小检测、节点度数检测、连接节点搜索、边检测、简单路径和最短路径搜索、属性检索、图密度计算、节点的偏心率计算等。

图 2:21个不同图结构理解任务

两种主要的方法来处理图结构理解任务:
提示类型
图3:在图结构理解任务中prompt方法:手动提示、自提示和API调用提示。

图4:图结构理解任务的提示,其中 [graph] 是数据的输入

图5:使用 GPT 3.5 的二分图匹配任务示例 - 图结构理解任务

监督微调

基于LLM的监督微调,如图6所示。GraphLLM致力于解决LLMs在图推理方面的障碍,并引入了一个混合模型,该模型继承了图学习模型和LLMs的能力,使LLMs能够利用图学习模型的优越表达能力,熟练地解释和推理图数据。

图6:在图结构理解任务中的监督微调(SFT)方法。上图展示了前缀调整:在前缀调整中结合图结构和文本信息作为前缀,并带有指令(如GraphLLM)输入到LLM中。也可以使用指令调整。

二、图学习任务
图学习任务:LLMs在图学习任务中的多种应用,包括节点分类、图分类、边分类、节点生成、知识图谱问答(KGQA)、图查询语言(GQL)生成和节点特征解释等。
六个图学习任务与prompt

专注于图学习任务的LLM-GIL研究可以分为三个主要类别:LLMs作为增强器、LLMs作为预测器,以及图提示。

三、图形式推理
7种图形式推理的任务与prompt

图形式推理的方法,分为两种:think on the graph 和 verify on the graph:

图形式推理。两个方向:在图上思考和在图上验证。在图上思考指的是在大型语言模型(LLMs)的推理过程中,利用图结构推导出最终结论。在图上验证指的是利用图来验证LLMs中间和最终输出的正确性。

四、图表示

LLMs(大型语言模型)强大的文本表示能力使文本嵌入能够捕捉到更深层次的语义细微差别,这也能够增强图形表示,特别是对于文本属性图(Text Attributed Graphs,简称TAGs)。在处理结构化文本数据时,关键挑战是将图形结构整合到LLMs生成的文本嵌入中,以增强其信息量或使LLMs能够在文本空间内处理具有图形结构的文本嵌入。有效地将图形描述纳入提示中对LLMs至关重要,特别是在像ChatGPT这样的封闭源模型中,嵌入是不可见的。图形在提示中如何编码影响着模型对图形的理解。总结了三种类型的图形表示

  1. 图嵌入:图嵌入专注于将图转换为特定的有序序列,然后将该序列输入到大型语言模型(LLM)中,利用它们出色的语义捕捉能力来学习序列的嵌入,并由此推导出图的嵌入。

  2. 图增强文本嵌入:图增强文本嵌入强调将结构嵌入纳入文本嵌入中。有两种类型的嵌入:结构嵌入,它捕捉局部结构;文本嵌入,它捕捉语义含义。如何结合这两种类型的嵌入是图增强文本嵌入的核心。

  3. 图编码提示:图编码提示集中于如何描述一个图,以便大型语言模型(LLM)能够更有效地理解它,然后将其输入到LLM中。例如,在常规图中,可以通过假设节点之间的关系是朋友或同事,将图置于故事背景中


图表示。展示了三种类型的图表示:图嵌入、图增强文本嵌入和图编码提示。图嵌入方法使用特定的有序序列来表示图。图增强文本嵌入强调将结构嵌入整合到文本嵌入中。图编码提示专注于如何在提示中描述一个图。

五、知识图谱增强检索

LLM在处理事实知识时存在虚构(hallucination)、领域知识不足、知识遗忘和知识准确获取方面的局限性,而KG提供了结构化的知识,可以提供更可靠的信息来源。

解决LLM局限性的方案:包括利用KG检测LLM的虚构、增强LLM的领域知识、整合KG到LLM以增强知识提取能力,以及利用KG增强LLM的推理能力。

其他KG+LLM工作:介绍了利用KG和LLM解决知识图谱相关任务,如知识图谱嵌入、补全、构建、图到文本生成和问答等。

基于知识图谱的增强检索。知识图谱可以增强大型语言模型(LLMs),以提供更全面的答案。

六、基于图+LLM的应用

图-LLM应用是指将图与大语言模型结合的框架,不仅用于图相关任务,也可用于各种其他领域,例如对话理解和推荐系统。常见框架包括将GNN与LLM相结合、将图数据与LLM相结合,以及探索利用图结构和语言模型的优势来解决不同任务的创新方法。例如:对话理解响应预测多域对话状态跟踪推荐系统图神经架构搜索等领域的应用。

七、评估方法与基准

LLM-GGA方法的总结,包括数据集和code链接

六个细分研究方向的数据集

新数据集与评价指标

A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applicationshttps://arxiv.org/pdf/2404.14809

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5