在当今信息爆炸的时代,我们常常需要从半结构化知识库(Semi-structured Knowledge Base, SKB)中获取信息来回答复杂问题。这类知识库既包含文本文档,也包含实体之间的关联关系。然而,许多现实中的问题属于“混合型问题”,即同时需要文本信息和关系信息才能正确回答。
传统的检索方法往往难以兼顾这两类信息:
HYBGRAG: Hybrid Retrieval-Augmented Generation on Textual and Relational Knowledge Bases
HYBGRAG 不仅是一个技术框架,通过多模态检索 + 自我反思的机制,实现了对复杂问题的精准理解与回答,特别适用于学术文献、企业知识库、智能客服等需要结合文本与关系的场景。
| HYBGRAG | 全部类型 |
首先,明确一下研究范围:
研究者比较了两种单一检索方式的效果:
惊人发现文本检索和图检索的效果相当,但它们的优势领域几乎不重叠!如果有一个“完美调度器”总能选择正确的检索器,性能将大幅提升。
| 最优路由 | 45.22% | 74.63% |
这意味着:很多问题必须同时使用两种信息源才能正确回答。
在知识图谱问答中,成功的关键往往在于能否从图谱中提取出包含目标实体的正确子图。
研究者测试了LLM在首次尝试时能否提取出包含目标实体的子图:
| 92.31% |
在混合问题中,LLM很难在第一次就准确区分文本方面和关系方面,经常把文本内容误认为是实体。
这两个挑战直接催生了HYBGRAG的核心设计:
检索模块类型:
对于问题"约翰·史密斯的纳米流体传热论文",路由器会识别:
{John Smith}{author writes paper}将复杂的评判任务分解为两个专门化的LLM:
验证器:质量守门员
{作者} → {撰写} → {论文}"来验证结果评论器:精准指导教练
STARK基准测试结果:
| HYBGRAG | 65.40% | 28.56% | 平均51% |
多代理设计价值:
| 多代理 | 65.40% | 完整HYBGRAG设计 |
在CRAG基准测试中,HYBGRAG同样表现出色:
| HYBGRAG | 63.22% |
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |