返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

HybRAG:混合文本和知识图谱的RAG框架

[复制链接]
链载Ai 显示全部楼层 发表于 5 天前 |阅读模式 打印 上一主题 下一主题

在当今信息爆炸的时代,我们常常需要从半结构化知识库(Semi-structured Knowledge Base, SKB)中获取信息来回答复杂问题。这类知识库既包含文本文档,也包含实体之间的关联关系。然而,许多现实中的问题属于“混合型问题”,即同时需要文本信息和关系信息才能正确回答。

传统的检索方法往往难以兼顾这两类信息:

  • 传统RAG只检索文本,忽略了实体之间的关系;
  • 图RAG(GRAG)只关注知识图谱中的关系,容易遗漏文本内容;
  • 问题路由方法在识别问题类型时容易混淆文本与关系部分,导致检索失败。

HYBGRAG: Hybrid Retrieval-Augmented Generation on Textual and Relational Knowledge Bases

HYBGRAG 不仅是一个技术框架,通过多模态检索 + 自我反思的机制,实现了对复杂问题的精准理解与回答,特别适用于学术文献、企业知识库、智能客服等需要结合文本与关系的场景。

方法
适用问题类型
是否自适应
是否可解释
是否支持混合问答
传统RAG
文本问答
Think-on-Graph
知识图谱问答
AVATAR
文本+图谱问答
HYBGRAG全部类型

问题定义:什么是混合问答(HQA)?

首先,明确一下研究范围:

  • 半结构化知识库(SKB)= 知识图谱(实体和关系) + 文本文档集合
  • 混合问题= 需要同时使用文本信息和关系信息才能回答的问题
  • HQA的目标= 从SKB中检索出既满足关系条件又满足文本条件的文档集合

🔍 挑战一:混合来源问题(Hybrid-Sourcing Question)

研究者比较了两种单一检索方式的效果:

  • 文本检索器:基于向量相似度搜索,专注文本内容
  • 图检索器:基于个性化PageRank,专注知识图谱关系

惊人发现文本检索和图检索的效果相当,但它们的优势领域几乎不重叠!如果有一个“完美调度器”总能选择正确的检索器,性能将大幅提升。

检索方法
Hit@1
Hit@5
纯文本检索
29.08%
49.61%
纯图检索
25.33%
55.23%
最优路由45.22%74.63%

这意味着:很多问题必须同时使用两种信息源才能正确回答。

🔍 挑战二:需要优化的问题(Refinement-Required Question)

在知识图谱问答中,成功的关键往往在于能否从图谱中提取出包含目标实体的正确子图。

研究者测试了LLM在首次尝试时能否提取出包含目标实体的子图:

迭代次数
反馈类型
命中率
1
无反馈
67.69%
2
简单重试
79.14%
2
纠正性反馈
92.31%

在混合问题中,LLM很难在第一次就准确区分文本方面和关系方面,经常把文本内容误认为是实体。

  • 仅让LLM重试一次,命中率就能显著提升
  • 如果提供具体的错误反馈(如“提取的主题实体错误”),效果提升更加明显

这两个挑战直接催生了HYBGRAG的核心设计:

  1. 针对挑战一→ 引入检索器组,同时利用文本和关系检索器
  2. 针对挑战二→ 设计评判模块,通过自我反思不断优化问题解析

HYBGRAG技术详解:如何构建自适应混合检索系统

检索器组

检索模块类型

  1. 文本检索模块
  • 基于向量相似度搜索
  • 直接在文本文档中寻找答案
  • 适用于纯文本问题或混合检索模块无法提取信息的情况
  • 混合检索模块
    • 输入:识别出的主题实体 + 有用关系
    • 过程:从主题实体的自我图中提取实体,然后用VSS排序
    • 关键创新:确保关系信息和文本信息的协同作用

    路由器:智能调度中心

    • 首先识别问题的关系方面(主题实体和有用关系)
    • 然后决定使用文本检索还是混合检索模块
    • 智能逻辑:如果识别不出任何实体,自动选择文本检索模块

    对于问题"约翰·史密斯的纳米流体传热论文",路由器会识别:

    • 主题实体:{John Smith}
    • 有用关系:{author writes paper}
    • 选择:混合检索模块

    评判模块

    将复杂的评判任务分解为两个专门化的LLM:

    • 验证器:判断检索结果是否正确
    • 评论器:提供具体改进反馈

    验证器:质量守门员

    • 任务:二元分类,判断检索结果是否满足问题要求
    • 关键创新:提供验证上下文(推理路径)
    • 例子:使用路径"{作者} → {撰写} → {论文}"来验证结果

    评论器:精准指导教练

    • 任务:当检索错误时,提供具体改进反馈
    • 反馈类型:纠正性反馈(非自然语言)

    HYBGRAG实验验证


    STARK基准测试结果:

    方法
    STARK-MAG (Hit@1)
    STARK-PRIME (Hit@1)
    相对提升
    传统RAG方法
    29.08%
    12.63%
    -
    图RAG方法
    13.16%
    6.07%
    -
    自反思LLM
    44.36%
    18.44%
    -
    HYBGRAG65.40%28.56%平均51%

    多代理设计价值:

    设计模式
    Hit@1
    说明
    无代理
    50.28%
    仅混合检索模块
    单代理
    62.06%
    路由器自行反思
    多代理65.40%完整HYBGRAG设计

    在CRAG基准测试中,HYBGRAG同样表现出色:

    方法
    Claude 3 Sonnet准确率
    纯文本RAG
    50.34%
    纯图谱RAG
    53.03%
    文本+图谱RAG
    58.20%
    HYBGRAG63.22%

框架使用的实体和提示词



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ