链载Ai

标题: 智谱共融:大模型驱动的知识图谱范式重构与演进路径 [打印本页]

作者: 链载Ai    时间: 昨天 20:43
标题: 智谱共融:大模型驱动的知识图谱范式重构与演进路径


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读在人工智能领域,随着大模型的迅速发展,其对知识图谱的作用引发了广泛关注。知识图谱作为一种结构化的知识表示方式,能够有效增强大模型的推理能力和可解释性,弥补其推理能力单一和幻觉问题。在数据驱动与知识驱动的结合中,知识图谱提供了一种可控、可解释的方式,帮助大模型实现更高级的智能。本文将深入探讨知识图谱与大模型的深度融合路径,包括提示工程、模型微调、检索增强、推理协同等方面的应用,通过这些融合,将有助于构建下一代可信的智能系统,为实现通用人工智能奠定基础。

今天的分享会围绕以下三个方面展开:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.KG+LLM 概述

2.KG+LLM 的深度融合

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.应用与展望

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|王昊奋 同济大学 OpenKG TOC轮值主席 特聘研究员

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|莫观德

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun


01


KG+LLM概述


人工智能的发展历程从早期的专家系统到统计学习、深度学习,再到如今的大模型,始终是数据驱动的。

1.实现数据智能的两种方式


实现数据智能有两种方式,即专家系统与统计学习。二者在数据来源、知识表示、应用场景等方面存在显著差异,同时也面临不同的瓶颈。


专家系统以符号知识为核心,依赖专家经验对多源异构数据进行人工治理与形式化组织。数据来源多样(如文档、规则库等),但形态复杂且治理困难。专家需将隐性知识(如经验、逻辑规则)转化为机器可理解的符号化表示(如规则树、知识图谱),这一过程面临两大痛点:


专家系统的智能表现为单点推理能力,适用于逻辑链条长、规则明确的复杂场景(如医疗诊断、工业控制)。然而,其局限性显著:


统计学习(含深度学习与大模型)以海量标注数据为基础,通过拟合数据分布挖掘内部模式。其核心优势在于:


统计学习推动了人工智能从点状任务(如图像分类)向面状任务(如多模态理解)的扩展,但其仍面临以下挑战:


因此,如何将数据驱动与知识驱动相结合成为关键。


2.双系统理论启示与KG+LLM协同的必要性


随着推理模型的发展,双系统理论逐渐被人们所熟知。


双系统理论认为人类的认知和决策过程存在两套系统:


通过双系统的协同,可以实现感知、认知和决策的一体化智能。


人工智能的演进始终伴随着对人类认知机制的模仿与突破。双系统理论(Dual Process Theory)为这一探索提供了重要启示:系统1(直觉型快思考)与系统2(逻辑型慢思考)的协同,恰与当前知识图谱与大语言模型的融合方向不谋而合。


将知识图谱与大模型结合,即神经符号AI系统,可有效缓解大模型幻觉问题,细化语义处理,增强上下文理解与逻辑推理能力。


基于上述对知识图谱与大语言模型协同重要性的理解,接下来探讨如何实现二者的深度融合。


02


KG+LLM的深度融合:如何结合KG增强LLM的推理能力


为实现KG+LLM的高效协同,当前技术探索聚焦于五大方向。

下文将围绕这五大路径深入剖析其技术原理、实践方案与行业应用价值。


1.Prompt工程:图谱增强提示


提示工程涉及范围广泛,包括指令、示例、思维链等众多方面。本文主题围绕知识图谱,因此重点介绍图谱增强提示。接下来将介绍部分代表性工作。


(1)KG-to-Text:将KG重写为高效的文本表述


基于知识图谱的问答是知识图谱领域的一项重要任务,其核心目标是从结构化知识库中检索并推理出精准答案,但这一过程面临两大瓶颈:一是自然语言问题与知识图谱三元组(实体-关系-实体)的映射存在表述差异,继而导致检索偏差;二是多跳推理困难,复杂问题需遍历多步逻辑路径,传统方法依赖人工规则,难以动态适配。


大语言模型虽具备强大的语义理解能力,但其在KGQA任务中仍受限于幻觉生成与结构化知识缺失。为此,KG-to-Text技术应运而生,通过将知识图谱中的结构化三元组转化为自然语言文本,增强大语言模型对知识逻辑的理解能力。


KG-to-Text增强框架通过检索-重写-回答(Retrieve-Rewrite-Answer)三阶段实现结构化知识到文本的精准转换。


实现任务敏感型知识生成,针对复杂问题,通过答案引导机制动态筛选与答案强相关的三元组,避免冗余干扰。使用领域数据微调LLM,使其生成与任务目标对齐的简洁文本。


采用自迭代语料构建策略,利用LLM对生成文本的逻辑校验能力,自动创建图谱-文本对齐语料,解决KGQA任务中标注数据稀缺问题,实现KG-to-Text模型的闭环训练优化。


(2)KG Structures as Prompt:结合图谱结构


KG Structure as Prompt将知识图谱的拓扑关系编码为提示模板,提升小模型的推理能力,弥补其参数规模的不足。


知识结构提示融合的核心原理为,将KG的子图结构(如实体关系链、多跳路径)转换为文本提示,嵌入模型输入上下文。


构建轻量化因果推理引擎:


上述技术可有效解决自然语言与结构化知识间的语义对齐问题,而复杂场景下的多跳推理仍需更深入的协同机制,实现可解释的推理链条与动态知识融合。


(3)KG-to-CoT:结合图推理模型生成推理链


通过图推理模型遍历知识图谱中的多跳路径(如“爱因斯坦→提出→相对论→影响→现代物理学”),生成结构化推理链。


基于问题中的实体(如“爱因斯坦”),还可以反向解析图谱中的潜在路径,生成可回溯的推理步骤(如“第一步:爱因斯坦提出相对论;第二步:相对论影响现代物理学”)。从而弥合大模型与知识库的认知鸿沟,提升二者的协同推理能力。


(4)MindMap:结合KG综合信息


将图谱检索到的子图(显性事实)与LLM内部知识(隐式关联)动态结合,构建联合推理网络。例如,回答“爱因斯坦对量子力学的贡献”时,图谱提供“爱因斯坦-研究-光电效应”路径,LLM补充“光电效应与量子力学关联”的上下文。


通过提示工程直接嵌入图谱拓扑关系(如实体邻接矩阵),无需微调模型,实现零成本知识增强。


提示工程是融合KG技术实现知识增强最简单最直接的方式,其优势在于无需修改模型参数。更进一步,在模型微调过程中,知识图谱也可以发挥重要作用。


2.模型微调


(1)图谱知识注入


未知知识注⼊(InfuserKI)


将知识图谱中的新实体/关系(如领域专有术语)嵌⼊LLM,避免与已有知识冲突。


低资源知识注⼊(GAIL Fine-tuning)


在标注数据稀缺的场景下,利⽤知识图谱⽣成合成数据,优化模型性能。


(2)图谱推理微调

在KG+LLM的深度融合过程中,⼦图检索与微调⽅法能够显著提升模型的多跳推理能⼒。主要包括以下⼏个关键点:


通过轻量级微调(Tuning),在KG⼦图基础上增强检索效果,提⾼推理能⼒。实验表明,子图增强⽅法可使召回率提升20个百分点。⼦图增强结合微调⽅法能够有效提升模型在复杂推理任务中的表现,使其在多跳推理、⻓链推理任务中具备更⾼的准确性和召回率。


(3)知识图谱对齐


在KG+LLM融合过程中,实现符号知识表征与隐式知识表征的对⻬,是提升推理能⼒的重要环节。


显式知识对⻬,通过三元组(头实体+关系+尾实体)的模式,实现结构化知识的映射。采⽤对⽐学习(Contrastive Learning)⽅法,使头实体和关系的描述构成输⼊,⽽尾实体的描述作为预测⽬标,以此促进语义对⻬。 采用共享参数的⼤模型⽤于构建头实体、关系实体、尾实体的语义表示,并通过正负样本构造对⽐损失,优化知识嵌⼊。


另一方面,基于包括指令、头实体描述、关系描述在内的token输入,让模型学习结构化知识,预测尾实体描述,实现隐式知识的对齐。


结合显式与隐式知识对齐,微调后的模型在⽣成式知识推理任务上有显著提升。相似度矩阵显示,优化后头尾实体的区分度显著提⾼,从原本的混乱状态变为清晰的知识结构。


3.RAG


接下来,将围绕知识图谱增强检索,以及轻量化和个性化GraphRAG技术展开讨论。


检索增强⽣成(Retrieval-Augmented Generation, RAG)经历了多个发展阶段,从基础检索到复杂流程编排,不断优化检索效率和⽣成质量。其演进过程可以归纳为以下⼏个关键阶段:


在RAG的实现过程中,知识图谱的引导至关重要。


(1)图谱增强检索


图谱增强检索的关键在于对问题的分解,KELDaR这一工作正是聚焦于此。基于问题复杂度分类构建分解树(Decomposition Tree),将复杂问题拆解为多步推理结构,各步骤在知识图谱上执行原子检索。并采用高效原子检索策略,快速定位相关⼦图,同时扩展候选子图范围,从而优化知识图谱检索效率。


RGR-KBQA这项工作的重点则是结合逻辑形式减少模型幻觉问题。通过知识引导的关系链检索,增强逻辑形式生成的相关性和细粒度性。并通过微调⼤模型,优化逻辑形式的⽣成与检索的协同作⽤。结合对⽐学习(Contrastive Learning),在语义相似度基础上优化实体和关系的匹配。在解码阶段,动态校准生成结果,提升逻辑形式的准确性与知识⼀致性。


图结构存在一些天然的优势,例如具有更强的复杂推理能力,更好的可解释性、知识表达与关联性,以及更灵活的知识源集成能力,可以为大模型落地提供关键支撑。因此,GraphRAG已成为业界前沿探索方向,核心议题包括图推理能力增强、图结构化知识表示、高效的图信息检索以及利用图上知识进行校验等等。


(2)轻量化GraphRAG


传统GraphRAG计算开销⼤、查询速度慢,为此,优化⽅案主要围绕轻量化构建与路径优化展开。


第一个思路是仅构建核心图。首先,基于KNN图的中⼼性筛选核心文本块,构建⻣架,减小图规模。另外,利用文本-关键词构建⼆分图,将关键词作为候选实体,共现关系作为知识表征,同时保留原始文本语义信息以避免信息损失。在检索时形成双通道形式,融合知识图谱骨架和二分图的局部子图信息,以保证大模型的生成质量。


另一思路是对路径剪枝。仅索引关键路径,避免对所有路径进⾏索引,以降低存储与计算成本。结合Streaming裁剪策略,基于可靠性排序,提⾼⻓⽂本情况下的⽣成准确性,缓解“中间信息丢失”问题。该优化⽅案在保留图结构优势的同时,⼤幅提升了查询效率、计算开销控制能⼒,增强了LLM⽣成的准确性与连贯性。


(3)个性化GraphRAG


个性化GraphRAG旨在通过⻓期记忆建模与动态记忆管理提升检索增强⽣成的效果,使其更加贴合⽤户的个性化需求。


其中,HippoRAG2模拟了⼈类的⻓期记忆,结合个性化PageRank实现信息筛选与排序。通过引入短语节点和段落节点,模拟人类大脑的密集-稀疏编码机制,从而更好地整合概念和上下文。


EMG-RAG,通过分层结构定义不同类型的记忆,并实现了动态管理,提⾼检索效率。 利用强化学习手段,学习在图上选择相关记忆,动态调整记忆选择策略,根据⽤户偏好优化记忆筛选过程。


4.LRM协同


在GraphRAG的基础上,DeepSeek的出现,带来了大型推理模型的新突破,也为知识图谱与大模型的融合提供了新的契机。


DeepSeek的问世到升级过程,也伴随着从大语言模型到多模态模型,再到推理模型的演化。


从训练时计算到测试时计算,使得思考问题的中间步骤成为可能,模型在回答之前会“推理”并探索可能的解决方案,因此更多复杂问题有望得到解决。


(1)检索链规划


在DeepSeek及其推理范式的基础上,我们可以进一步优化RAG的检索过程,使其更具动态性和适应性。其中,Chain of Retrieval(CoR)取代了传统的Chain of Thought(CoT),使检索和推理相结合,实现更高效的知识获取和决策支持。

(2)算子/实体规划


结合强化学习⽅法,优化算⼦规划和知识图推理,可以提升信息检索和推理的精准度。

(3)路径搜索


在RAG体系中,为了在检索与推理之间实现最优平衡,可以通过路径搜索蒙特卡罗树搜索(MCTS)进行优化,从而提升检索效率和推理准确性。

(4)行为预测


在路径搜索与蒙特卡罗树搜索的基础上,进一步优化知识检索与推理过程,不仅关注如何高效检索,还引入行为预测,通过动态决策增强推理能力。

5.知识智能体


接下来聚焦知识智能体。


(1)图谱优化工作流


(2)图谱个性化智能体


03


应用与展望


前文系统解析了KG+LLM协同的技术框架与智能体演进路径,在这一章节中将展示如何通过知识增强与复杂推理结合,解决法律、金融、医疗等领域的核心痛点,并对未来发展方向进行展望。


1.KG+LLM的应用场景


(1)法律:Chatlaw


核⼼挑战:法律条⽂时效性强、案例推理复杂、逻辑链需严格可追溯。


技术⽅案:


(2)金融:FinSearch


核⼼挑战:市场信息⾼频更新、⻛险信号隐含于复杂关联⽹络。


技术⽅案:


(3)医疗:Citrus


核⼼挑战:低幻觉容忍、需模拟医⽣认知路径(假设-验证循环)。


技术⽅案:


2.总结与展望


KG+LLM的协同框架现阶段聚焦三⼤核⼼问题的突破:


更进一步,还有很多问题值得研究,例如,能否基于KG+LLM深度融合构建可信智能体系统,实现零幻觉、⾼可靠性的实时响应;针对⾦融、医疗等⾼要求领域,设计轻量化、可验证的推理引擎,实现场景⾃适应协同。


在探索KG-LLM协同的进程中,OpenKG作为开放知识图谱生态的核心枢纽,通过资源共享与社区协作机制,为突破技术瓶颈提供了重要支撑。


OpenKG致力于推动知识图谱数据的开放共享,整合各领域知识图谱资源,让知识图谱能够被更广泛地利用。


未来,将进一步拓展应用场景,加强技术研发,同时持续开展社区建设,构建大模型时代下全球领先的知识图谱开源生态,推动知识要素的高效流通与持续增值。


以上就是本次分享的内容,谢谢大家。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5