链载Ai

标题: 为什么说Agentic RAG是RAG领域的王者? [打印本页]

作者: 链载Ai    时间: 10 小时前
标题: 为什么说Agentic RAG是RAG领域的王者?


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">前言

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我们了解RAG的核心思想是将检索机制与大模型相结合,通过动态检索外部知识库来增强模型的生成能力,并生成上下文相关且准确的响应。RAG突破了目前大模型的静态知识限制,拓展了大模型开启了“生成+检索”协同工作的新范式。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">传统RAG-文本检索的利器

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">首先回顾一下传统RAG的核心链路。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统RAG的三个核心链路:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">之前的文章中《为什么RAG系统"一看就会,一做就废"》提到传统RAG系统存在12个问题:

对12个问题归纳总结来看:

  1. 1. 缺失内容(Missing Content)、错过超出排名范围的文档(Missed Top Ranked)、不在上下文中(Not In Context)、数据摄取的可扩展性问题(Data Ingestion Scalability)、结构化数据的问答(Structured Data QA)、从复杂PDF文档提取数据(Data Extraction from Complex PDFs):属于知识库工程层面的问题,可以通过完善知识库、增强知识确定性、优化上下文整合策略解决。
  2. 2. 未提取(Not Extracted)、错误的格式(Wrong Format)
    、不正确的具体性(Incorrect Specificity):属于大模型自身能力的问题,依赖大模型的训练和迭代。
  3. 3. 答案的不完整(Incomplete Answers):属于RAG架构问题,更有前景的思路是使用Agent引入规划能力。

虽然传统RAG系统在知识检索和生成方面表现出色,但是在实际应用场景中我们已经不满足于只是生成对应的简单回答,而是期待大模型能够在处理动态、多步推理任务、适应性和复杂工作流的编排方面更好地应用于企业级场景。例如:

  1. 1. 传统RAG系统在面对需要从多源信息中抽取并综合分析的情况时,存在明显局限性。当回答一个复杂问题涉及到通过识别和利用不同信息片段之间的共享属性,来构建新的、综合性答案时,传统RAG无法有效连接这些关键点,导致在信息整合与关联方面表现不足,无法充分满足用户对于准确、全面且深入信息处理的需求。
  2. 2. 传统RAG对大规模的数据集合或是单篇幅巨大的文档进行全面而深入的理解时,它的表现会显得较为逊色。这主要是因为传统RAG在处理大量数据时,难以有效地捕捉和理解那些被浓缩于其中的关键语义概念,从而影响了整体的理解质量。

比如在医疗场景中:医疗诊断的复杂问题,需要综合分析患者的病历记录、多项检查报告以及不同的医学研究文献等多源信息。传统RAG系统可能会分别从这些信息源中抽取相关内容,但如果要构建一个新的综合性答案,比如确定一种罕见病的诊断依据,就需要识别和利用不同信息片段之间的共享属性,如特定症状、检查指标等。

传统RAG系统可能无法有效连接这些关键点,它可能知道患者有头痛、发烧等症状,也知道某项检查指标异常,但难以将这些分散的信息片段与医学文献中关于某种罕见病的特征描述进行关联,从而无法为医生提供一个完整、准确的诊断建议。

为了解决这些问题,2024年4月微软研究团队发表了一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》论文中微软的研究人员提出了一种从文本构建并增强知识图的方法,即GraphRAG(Graph-based Retrieval-Augmented Generation)。

GraphRAG-图结构的智慧

Graph RAG 中的 Graph 指的是知识图谱 —— Knowledge Graph, KGs。一个用来表示实体及其相互关系的结构化图形数据模型。在 Graph 中,节点(Nodes) 代表实体如人、地点、事件等;边(Edges)则代表这些实体之间的关系,(如人物关系、地理位置等)。
GraphRAG是一种结合了知识图谱的检索增强生成框架,是对传统RAG实现的一种改进,专注于从图结构数据中检索信息。

GraphRAG工作流程

GraphRAG将文本构建为知识图谱,将信息表示为实体和关系的互联网络。通过图遍历算法遍历图中的节点和边即KG中的结构化信息,能够捕捉和利用信息片段之间的复杂关系,以及在检索和生成阶段利用这些结构化信息。为用户提供更准确、相关和多样化的检索结果。

GraphRAG的工作流程主要包括三个阶段:基于图的索引(Graph-Based Indexing)、图引导检索(Graph-Guided Retrieval)和图增强生成(Graph-Enhanced Generation)。

GraphRAG 有两种主要方法:

Jeong Yitae撰文《From RAG to GraphRAG , What is the GraphRAG and why i use it?》,总结了Graph RAG的不足:GraphRAG 和 RAG 一样,具有明显的局限性,包括如何形成图形、生成查询这些图形的查询,以及最终根据这些查询决定要检索多少信息。

1. 信息抽取:如何构建高质量的知识图谱?
信息抽取是构建图索引的关键步骤,需从原始文本中提取结构化信息(如实体、关系、属性等),并将其转化为知识图谱(KG)中的节点和边。若信息抽取不准确或不完整,后续的图构建、检索和查询结果的不准确。例如:

2. 查询生成:如何在知识图谱上的生成全面性和准确性的回答?
查询生成是指模型根据用户原始查询生成子查询,以驱动对图中相关节点和边的检索。然而,原始查询生成子查询存在以下挑战:

3. 推理边界:如何平衡“信息充分性”与“计算效率”?
推理边界指在信息检索过程中如何平衡“信息充分性”与“计算效率”。具体挑战包括:

KAG-知识增强生成

虽然RAG技术实现了特定域应用程序的高效构建。但是也有局限性,包括向量相似性与知识推理相关性之间的差距,以及对知识逻辑的不敏感如数值、时间关系、专家规则等,都阻碍了尤其是在法律、医学和科学等需要分析推理的专业领域服务的有效性。

为了解决以上问题,蚂蚁集团知识图谱团队和浙江大学的撰写的论文《KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation》,提出了知识增强生成(Knowledge Augmented Generation,KAG)框架,该框架旨在充分利用知识图谱和向量检索的优势,提升大语言模型在专业领域的表现。KAG框架充分利用知识图谱和RAG技术的互补优势。不仅将图结构整合到知识库,还将知识图谱的语义类型、关系以及知识图谱问答(KGQA)中常用的逻辑形式整合到检索和生成过程中。

论文对KAG的定位是专业领域知识增强服务框架,同时提到一个非常重要的观点:一个专业的知识服务框架须具备3个重要特点:

KAG框架通过对当前大语言模型与知识图谱结合,对以下五个方面进行了增强:

KAG框架

KAG框架由三个部分组成:KAG-Builder、KAG-Solver 和 KAG-Model。

KAG框架设计思路是必须从受约束的知识库出发,去构建图谱或做逻辑推理。在一定程度上缓解大模型领域知识缺失以及幻觉的问题。
目前框架处于早期快速迭代阶段,在功能具体实现方面应该还是存在一定的优化提升空间,需要团队在实际业务场景中检验和迭代。
据蚂蚁集团知识图谱团队分享,KAG已在电子政务、电子医疗进行的应用,表现的还不错。

Agentic RAG 破局

智能体检索增强生成(Agentic RAG)通过将自主人工智能智能体嵌入RAG流程,克服了这些局限性。Agentic RAG利用智能体设计模式(反思、规划、工具使用和多智能体协作)来动态管理检索策略,迭代完善上下文理解,并通过从顺序步骤到自适应协作等明确定义的操作结构来调整工作流程,在复杂任务中实现闭环的检索 - 加工 - 验证 - 优化,来提高决策能力和适应性。

比如当对于”2025年政府工作报告中[人工智能+]政策对就业与科技发展的综合影响“复杂综合分析时,Agentic RAG能够有效整合多源信息并进行多步深度推理、修正优化,给出完整的分析报告。而传统的RAG、GraphRAG是难以企及的。

Agentic RAG框架

Agentic RAG 如何工作?

智能体智能是Agentic RAG系统的基础,使它们能够超越传统RAG的静态和被动性质。通过集成能够进行动态决策、迭代推理和协作工作流程的自主智能体,确保系统能够精确且可扩展地处理复杂的现实任务。在处理复杂业务场景时,Agentic RAG系统展现出更强的适应性和精确性。

作为智能体的主要推理引擎和对话接口。它解释用户查询、生成回复并保持连贯性。

在交互过程中捕捉上下文和相关数据。短期记忆跟踪即时对话状态,而长期记忆存储积累的知识和智能体经验。

通过反思、查询路由或自我批判指导智能体的迭代推理过程,确保复杂任务能被有效地分解。

扩展智能体的能力,使其超越文本生成,能够访问外部资源、实时数据或进行专门的计算。

Agentic RAG 架构

Agentic RAG的核心是Agent,可以根据复杂度的不同进行扩展,分为不同的架构框架。这些框架包括单智能体架构(Single-Agent RAG)、多智能体系统(Multi-Agent RAG)。每个框架都针对特定的挑战进行了优化,以适应不同应用场景的性能需求。

单智能体RAG(Single-Agent RAG,Router)

单智能体智RAG作为一个集中式决策系统,由单个智能体管理信息的检索、路由和集成。这种架构通过将这些任务整合到一个统一的智能体中,简化了系统,使其特别适用于工具或数据源数量有限的设置。

单智能体RAG工作流程

1. 查询提交与评估
用户提交查询后,协调智能体(或主检索智能体)接收查询并进行分析,以确定最合适的信息来源。
2. 知识源选择
根据查询类型,协调智能体从多种检索选项中进行选择:

3. 数据集成与大语言模型合成
从选定的来源检索到相关数据后,将其传递给大语言模型。大语言模型对收集到的信息进行合成,将多个来源的见解整合为连贯且与上下文相关的回复。
4. 输出生成
最后,系统提供一个全面的、面向用户的答案,回答原始查询。该回复以可行、简洁的格式呈现,并可选择包含对所用来源的引用或参考。

单智能体RAG关键特征和优势:

多智能体RAG系统(Multi-Agent RAG)

多智能体RAG是单智能体架构的模块化、可扩展的演进,旨在通过利用多个专门的智能体来处理复杂的工作流程和多样化的查询类型。该系统不再依赖单个智能体来管理所有任务(推理、检索和回复生成),而是将职责分配给多个智能体,每个智能体针对特定的角色或数据源进行了优化。

多智能体RAG工作流程:

1. 查询提交
流程从用户查询开始,由协调智能体或主检索智能体接收。这个智能体作为中央协调器,根据查询的要求将查询分配给专门的检索智能体。
2. 专门的检索智能体
查询被分配到多个检索智能体,每个智能体专注于特定类型的数据来源或任务。例如:

3. 工具访问与数据检索
每个智能体将查询路由到其领域内适当的工具或数据源,如:

4. 数据集成与大语言模型合成
检索完成后,所有智能体的数据都被传递给大语言模型。大语言模型将检索到的信息合成为连贯且与上下文相关的回复,无缝整合多个来源的见解。

5. 输出生成
系统生成全面的回复,并以可行、简洁的格式返回给用户。

多智能体RAG关键特征和优势:

多智能体RAG挑战:

尽管Agentic RAG系统在技术实现层面仍面临着诸多的挑战,但是其通过如下3方面突破性进展,一定会成为应对复杂问题的新利器。

  1. 1. 交互范式完成了从被动响应到主动预测的转型,系统能够基于上下文深度理解主动预判用户需求;2. 检索机制实现了由单次关键词匹配向多轮动态调整的跨越,通过实时反馈循环构建起包含意图识别、语义修正、结果优化的自我进化体系;
  2. 2. 任务处理能力完成了从简单事实问答到复杂认知任务的质变突破,可支持多模态数据分析、跨领域知识推理、结构化报告生成等高端智能服务。

相信在不久将来Agentic RAG能够像人类专家一样,在面对复杂问题时不仅给出答案,更能给出详细的推理过程和执行细节在内的一整套完整方案。

小结

Jerry Liu(LlamaIndex CEO)在报告《Beyond RAG: Building Advanced Context-Augmented LLM Applications》中也提出了RAG的未来是Agent相似观点。无论是RAG for Agents还是Agents for RAG,亦或是从RAG到Graph RAG再到Agents,在可见的未来,Agent将成为推动AI应用发展的核心力量。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5