|
2024年,随着 LLM 和 RAG 技术的发展,AI Agent 系统成为焦点。AIAgent是能够在最小人工干预下进行复杂决策和任务执行的自主系统,这些系统通过增强生产力,重新定义了个人和组织解决问题的方式。
2025 年将是“Agent 之年”!今天,我们将探讨 Agentic RAG 系统的类型及其架构,并深入了解其运作机制。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;text-wrap: wrap;background-color: rgb(255, 255, 255);"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;text-wrap: wrap;background-color: rgb(255, 255, 255);">
Agentic RAG系统:RAG与AI Agent系统的结合 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;">为了简单理解 Agentic RAG,我们可以拆解这个术语:它是 RAG 与 AI Agent 的结合。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;">什么是 RAG?ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;">RAG(Retrieval-Augmented Generation,检索增强生成)是一个框架,旨在通过将外部知识源集成到生成过程,来增强生成式 AI 模型的表现。其工作原理如下:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;">检索(Retrieval):这一部分从外部知识库、数据库或其他数据存储库中获取相关信息。这些信息源可以包括结构化或非结构化数据,如文档、API,甚至实时数据流。 增强(Augmented):检索到的信息用于指导和支持生成模型。这确保了输出更准确,基于外部数据,并且上下文丰富。 生成(Generation):生成式 AI 系统(如GPT)将检索到的知识与自身的推理能力结合,生成最终的输出。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.6px;">
RAG 在处理复杂查询或需要最新、特定领域知识的任务中尤其有价值。
什么是AI Agent?
下面是 AI Agent 在回答查询“2024 年谁赢得了欧洲杯?告诉我更多细节!”时的工作流程: 初始指令:用户输入查询,例如“2024 年谁赢得了欧洲杯?告诉我更多细节!”。 LLM处理与工具选择:LLM 解析查询,判断是否需要外部工具(如网页搜索)。它启动相应的功能调用以获取更多信息。 工具执行与上下文检索:选择的工具(例如搜索 API)检索相关信息,在这里,它获取关于 2024 年欧洲杯决赛的详细资料。 响应生成:新信息与原始查询结合后,LLM 生成完整的最终回应:“西班牙以 2-1 战胜英格兰,在 2024 年 7 月的柏林决赛中赢得了欧洲杯。”

简而言之,Agentic AI 系统包含以下核心组件: 这些展示了 AI 如何集成用户提示、工具输出和自然语言生成。
AI Agent 的定义
AI Agent 是自主的软件系统,设计用于通过与环境互动,执行特定任务或实现某些目标。AIAgent的主要特征包括: 感知:它们感知或检索有关环境的数据(例如,通过 API 或用户输入)。 推理:它们分析数据并做出有根据的决策,通常利用像 GPT 这样的 AI 模型进行自然语言理解。 行动:它们在现实或虚拟世界中执行动作,如生成响应、触发工作流或修改系统。 学习:高级Agent通常会根据反馈或新数据进行自我适应并提高其表现。
AIAgent能够处理多个领域的任务,如客户服务、数据分析、工作流自动化等。
总结
Agentic RAG 系统结合了 RAG 与自主 AIAgent的能力。RAG 通过外部知识源增强生成模型的输出,而 AIAgent则通过感知、推理、行动和学习,自主执行任务。这种组合使得 AI 系统不仅能够生成基于事实的回答,还能通过实时数据和环境交互,不断适应并提高效率,拓展了 AI 的应用场景,如客户服务和工作流自动化等领域。
首先,以下是基本 RAG 技术的局限性: 何时检索:系统可能难以判断何时需要进行检索,从而导致答案不完整或不够准确。 文档质量:检索到的文档可能与用户的问题不匹配,进而削弱回答的相关性。 生成错误:模型可能会“幻觉”出不准确或不相关的信息,而这些信息并未被检索内容支持。 答案精度:即便有相关文档,生成的回答可能无法直接或充分回答用户的查询,使得输出结果不可靠。 推理问题:系统无法处理复杂的查询,缺乏对细节的深入理解。 适应性有限:传统系统无法动态调整策略,例如选择API调用或网页搜索。
Agentic RAG 的重要性
理解 Agentic RAG 系统,帮助我们为上述挑战和特定任务部署合适的解决方案,并确保与预期使用场景的一致性。以下是其关键性原因: 量身定制的解决方案 不同类型的 Agentic RAG 系统针对不同级别的自主性和复杂性进行了设计。例如:
了解这些类型有助于确保最佳的设计和资源利用。 风险管理 Agentic 系统涉及决策过程,这可能带来如错误行动、过度依赖或误用等风险。了解每种类型的范围和局限性,可以有效降低这些风险。 创新与可扩展性 区分不同类型的系统使得企业能够将其从基础实施扩展到能够应对企业级挑战的复杂代理。
简而言之,Agentic RAG 能够规划、适应和迭代,以找到适合用户需求的最佳解决方案。
总结
Agentic RAG 系统的优势在于其能够克服传统 RAG 技术的局限性,如检索时机、文档质量、生成错误等问题。通过理解不同类型的 Agentic RAG 系统(如 Agentic RAG 路由器和自我反思 RAG),我们能够根据具体任务需求部署量身定制的解决方案。此类系统不仅能够处理复杂决策,还能帮助管理风险、推动创新与可扩展性,使得企业在面对复杂挑战时,能够更高效、更可靠地应对。 Agentic RAG:将RAG与AI Agent 相结合
结合 AI Agent 和 RAG 工作流,下面是 Agentic RAG的架构:

Agentic RAG 将 RAG 的结构化检索和知识集成能力与 AI Agent 的自主性和适应性相结合。其工作原理如下: 动态知识检索:配备 RAG 的 Agent 可以即时检索特定信息,确保其操作时使用的是最新且与上下文相关的数据。 智能决策:Agent处理检索到的数据,应用高级推理来生成解决方案、完成任务或深入准确地回答问题。 面向任务的执行:与静态的 RAG 管道不同,Agentic RAG 系统能够执行多步骤任务,适应变化的目标,或根据反馈调整其方法。 持续改进:通过学习,Agent不断改进其检索策略、推理能力和任务执行能力,随着时间的推移变得更加高效和有效。
Agentic RAG 的应用
以下是 Agentic RAG 的应用场景: 客户支持:通过访问实时数据源,自动检索并提供准确的用户查询响应。 内容创作:生成复杂领域(如法律或医疗)中的上下文丰富的内容,依托于检索的知识。 研究辅助:通过自主收集和综合来自广泛数据库的相关材料,帮助研究人员。 工作流自动化:通过将基于检索的决策集成到企业流程中,简化企业运营。
Agentic RAG 代表了 RAG 与自主 AI Agent之间的强大协同作用,使系统能够以无与伦比的智能、适应性和相关性进行操作。这是构建不仅仅是知情的,而且能够独立执行复杂、知识密集型任务的 AI 系统的重大进展。
总结
Agentic RAG 通过结合 RAG 的检索能力与 AIAgent的自主决策和适应性,开创了全新的工作模式。Agent能够实时检索最新数据,并通过智能推理生成解决方案、执行任务或提供深度回答。与传统的静态 RAG 管道不同,Agentic RAG 能够执行复杂的多步骤任务,并通过反馈不断改进自己的执行策略。它在客户支持、内容创作、研究辅助和工作流自动化等多个领域具有广泛应用,并为构建高效、自主的 AI 系统铺平了道路。
我希望你现在已经对Agentic RAG有了清晰的了解,在下一部分中,我将向你介绍一些重要且流行的 Agentic RAG系统及其架构。
正如前面提到的,"Agentic"一词意味着系统像智能代理一样,能够推理并决定使用哪些工具或方法来检索和处理数据。通过结合检索(例如数据库搜索、网络搜索、语义搜索)和生成(例如 LLM 处理),该系统确保以最有效的方式回答用户的查询。
类似地,Agentic RAG 路由器是设计用来动态地将用户查询路由到合适的工具或数据源,从而增强 LLM 能力的系统。此类路由器的主要目的是将检索机制与 LLM 的生成能力相结合,以提供准确且具有上下文的响应。
这种方法弥合了 LLM(基于现有数据训练的静态知识)与需要从实时或特定领域数据源动态检索知识之间的差距。通过结合检索和生成,Agentic RAG 路由器使得以下应用成为可能:
Agentic RAG 路由器架构
下图展示了Agentic RAG 路由器如何运作。我们来分析一下各个组件和流程:

用户输入与查询处理
检索 Agent 检索 Agent 是核心处理单元,负责协调如何处理查询。它评估: 查询的意图。 需要的信息类型(结构化、非结构化、实时、推荐)。
路由器 路由器决定使用哪些工具来处理查询: 工具 这些工具是模块化且专业化的: 数据源 系统连接到多种数据源: LLM 集成 检索到的数据被传递给 LLM: 输出 最终的响应被以清晰且可操作的格式返回给用户。
Agentic RAG 路由器的类型
以下是 Agentic RAG 路由器的类型:
单一 Agentic RAG 路由器 
在这种设置中,只有一个统一的 Agent 负责所有的路由、检索和决策任务。适用于只有单一查询类型的应用,比如检索特定文档或处理基于 SQL 的请求。
在单一 Agentic RAG 路由器中: 查询提交:用户提交查询,单一的检索代理处理该查询。 通过单一 Agent 路由:检索 Agent 评估查询并将其传递给一个路由器,路由器决定使用哪些工具(例如向量搜索、网络搜索、文本转 SQL、推荐系统)。 工具访问:路由器根据需要连接查询到一个或多个工具。
LLM 集成:检索到的数据被传递给 LLM,LLM 结合其生成能力生成响应。 输出:将响应以清晰、可操作的格式返回给用户。
该方法适合于数据源和工具较少的简单用例,结构集中且高效。
多Agentic RAG 路由器 
这种架构涉及多个 Agent,每个Agent处理特定类型的任务或查询。这种方法适合复杂系统,支持高查询量和多样化的数据源。 在多 Agentic RAG 路由器中: 查询提交:用户提交查询,初步由检索代理处理。 分布式检索 Agent:系统采用多个检索 Agent,每个Agent专注于特定任务类型。例如:
单独的工具路由器:每个检索Agent将查询路由到其指定的工具,工具从共享池中选择(例如向量搜索、网络搜索等)。 工具访问与数据检索:每个工具根据其检索Agent的需求访问相关数据源。 LLM集成与合成:所有检索到的数据都传递给 LLM,LLM 合成这些信息并生成连贯的响应。 输出:最终的处理响应返回给用户。
总结
Agentic RAG 路由器将智能决策、强大的检索机制和 LLM 结合在一起,创建了一个多功能的查询响应系统。架构通过最佳方式将用户查询路由到适当的工具和数据源,确保响应的高相关性和准确性。无论是使用单一路由器还是多个路由器设置,设计都会根据系统的复杂性、可扩展性需求和应用要求进行优化。
查询规划型 Agentic RAG 是一种方法论,旨在通过利用多个可并行化的子查询跨多个数据源来高效地处理复杂查询。这种方法结合了智能查询分解、分布式处理和响应合成,提供准确且全面的结果。

以下是其核心组件: 用户输入与查询提交
用户输入:用户将查询或请求提交给系统。 输入的查询将被处理并传递到下游进行进一步处理。
查询规划器是协调整个过程的核心组件。它: 工具 LLM 合成与输出
关键亮点
模块化设计:架构允许在工具选择和集成方面具有灵活性。 高效的查询规划:查询规划器作为智能中介,优化哪些组件被使用以及使用的顺序。 RAG:通过利用 RAG 管道,系统增强了 LLM 的知识,提供最新的、特定领域的信息。 迭代交互:查询规划器确保工具和 LLM 之间的迭代合作,逐步改进响应。
总结
查询规划型 Agentic RAG 方法通过智能分解查询、分布式处理和响应合成,能有效处理复杂查询。这种方法不仅增强了 LLM 的能力,还提高了信息检索的精度和时效性,确保最终输出是综合且符合用户需求的答案。
自适应 RAG(Adaptive RAG)是一种通过根据传入查询的复杂度调整查询处理策略,来提高 LLM 灵活性和效率的方法。
自适应 RAG 根据查询的复杂性动态选择回答问题的不同策略——从简单的单步骤方法到更复杂的多步骤方法,甚至在某些情况下不进行检索的过程。这一选择通过一个分类器来实现,该分类器分析查询的性质,并确定最佳的处理方法。

以下是单步骤、多步骤和自适应方法的比较: 单步骤方法(Single-Step Approach)
多步骤方法(Multi-Step Approach) 自适应方法(Adaptive Approach)

自适应RAG框架
以下是来自 LangGraph 的自适应 RAG 系统架构流程示例:

查询分析 该过程首先分析用户查询,以确定最合适的检索和生成路径。
步骤2:可选路径 可以为更专业的场景添加额外路径,例如领域特定工具或外部API。
RAG + 自我反思 如果查询通过 RAG 模块进行处理,它将经历一个迭代的自我反思过程,以确保提供高质量和准确的回应。 检索节点
根据查询从索引数据库中检索文档。 这些文档传递到下一阶段进行评估。
评分节点 如果文档相关:继续生成答案。 如果文档无关:重新编写查询以获得更好的检索,并返回到检索节点。
生成节点 基于相关文档生成响应。 生成的响应进一步评估以确保准确性和相关性。
自我反思步骤
如果是:过程结束,答案返回给用户。 如果否:查询将进行另一次迭代,可能进行额外优化。
重新编写问题节点 Web搜索处理无关查询 如果在查询分析阶段,查询被认为与索引知识库无关:
总结
自适应 RAG 是一种智能且资源意识强的框架,通过利用定制化的查询策略,提高了响应质量和计算效率。它能够根据查询的复杂性灵活调整策略,确保对于简单查询减少不必要的计算开销,同时保证复杂查询的高准确度。
Agentic Corrective RAG(主动型纠错RAG)
传统 RAG 存在的核心问题包括: 低质量的检索器:引入大量无关或误导性信息,阻碍模型获取准确知识,并增加生成过程中的幻觉风险。 不加筛选的文档利用:许多 RAG 系统无差别地使用所有检索到的文档,无论其相关性如何,导致错误或不必要数据的整合。 低效的文档处理:当前 RAG 方法通常将完整文档作为知识来源,即使大部分文本无关,也会稀释生成质量。 依赖静态语料库:基于固定数据库的检索系统无法适应动态信息需求,提供的文档往往有限或次优。

CRAG(Corrective RAG,纠错RAG)旨在通过引入自我纠错机制,改进文档利用效率,提高生成质量,解决上述问题。具有以下关键特性: 检索评估器:轻量组件,用于评估检索到的文档对查询的相关性和可靠性,并分配置信度评分。 触发动态行为:根据置信度评分触发不同检索行为(例如“正确”“模糊”“错误”)。 结合网络搜索:补充和优化静态数据库检索的结果。 分解-重组算法:选择性提取检索文档中的关键信息,丢弃无关部分,优化输入到生成器的数据。 即插即用能力:可无缝集成至现有 RAG 系统,无需大规模修改。
纠错RAG的工作流程

检索从向量数据库中使用输入查询检索上下文文档,初步收集可能相关的信息。相关性检查利用 LLM 评估检索文档的相关性,确保文档适合问题。验证相关性若所有文档相关:无需纠错,直接进入生成步骤。若存在模糊或错误文档:进入步骤4。
查询重写和搜索若文档模糊或错误:基于LLM的反馈重写查询。执行网络搜索或替代检索以获取更新且准确的上下文信息。
响应生成将优化后的查询和相关上下文文档(原始或纠正后)发送至LLM生成最终答案。
正确的文档:直接使用检索文档生成答案。模糊的文档:结合原始和新上下文文档生成答案。错误的文档:使用纠正后的查询和新检索的文档生成答案。
此工作流程通过迭代纠错和优化,确保高精度响应。
主动型纠错RAG系统的工作流程
通过结合一些检查点,针对上下文缺失的查询执行网络搜索,系统的主要步骤如下:

1. 查询(Question)用户输入的问题启动流程。2. 检索节点(Retrieve Node)系统从向量数据库中检索潜在回答的上下文文档。3. 评估节点(Grade Node)由 LLM 评估文档的相关性:完全相关:进入生成答案的节点。 部分无关:标记问题并重写查询。
评估后的分支场景生成答案节点:如果所有文档都相关,LLM 快速生成响应。 重写查询节点:若结果有误,重写查询以改善检索。 网络搜索节点:通过网络搜索获取额外上下文。 生成答案节点:利用优化后的查询和新数据生成答案。
主动型纠错RAG架构

核心步骤查询与初始检索:用户输入查询,系统从向量数据库检索上下文文档。 文档评估:LLM 评估每个文档的相关性。
完全相关:直接生成答案。 存在无关文档:触发纠正步骤。
查询重写:LLM 重写查询以优化网络检索。 附加检索:网络搜索获取改进的上下文文档。 响应生成:通过验证的上下文文档生成答案。
CRAG的作用错误修正:通过识别无关文档并检索更好的上下文,迭代提高准确性。 主动调整:根据LLM的评估,动态调整操作(如重写查询、执行网络搜索)。 事实性保障:通过验证的上下文文档生成答案,降低幻觉或错误响应的风险。
总结 Agentic Corrective RAG 通过动态纠正和优化检索结果,有效提升了生成质量,同时最大限度减少了因无关或错误文档带来的误导。它为 RAG 系统的可靠性、灵活性和效率提供了一种创新性解决方案。
自反射 RAG(Self-reflective RAG)是自然语言处理(NLP)中的一种高级方法,将检索方法与生成模型结合,同时引入自我反思和逻辑推理机制。它通过对检索与生成过程中的低质量结果进行自我校正(如重写问题、剔除不相关或虚假的文档)来提高整体输出质量。
关键特性动态检索(按需适应性检索) 不同于传统 RAG 固定检索文档的方式,自反射 RAG 基于生成过程动态决定是否需要检索,并调用“反思标记”作为信号进行判断。 反思标记(Reflection Tokens)
质量保证 LLM 使用批判标记自评输出质量(如是否有支持性证据或生成片段的逻辑一致性),显著减少幻觉问题。 灵活可控 通过反思标记,模型能根据任务需求动态调整行为,既能处理需检索任务,也能独立生成无需检索的内容。 性能提升 动态检索与自我批判的结合使自反射 RAG 在生成高质量、有证据支持的输出上优于传统 RAG 和标准 LLM。
自反射 RAG 的架构

核心流程 初始查询 查询进入系统,模型评估是否需要检索外部信息。 按需检索
如果不需要检索,直接由 LLM 生成回答; 若需要检索,系统调用知识库获取相关文档。
文档评估与筛选 检索到的文档会经过相关性评估,无关文档被剔除,若必要会重新检索。 生成与验证 自反思与迭代 系统批判性地评估回答质量,若不满意则重写查询或重新生成,直至输出准确答案。 最终输出 生成经过验证的准确回答作为最终结果。
基本的 RAG 流程是通过检索的文档生成输出内容。高级 RAG 方法(例如路由)允许 LLM 根据查询选择不同的检索器。自反射 RAG 在此基础上增加了反馈循环机制,可以在需要时重新生成查询或重新检索文档。状态机非常适合这种迭代过程,它定义了步骤(例如检索、查询优化)和状态转换,使系统能够动态调整,例如在检索到的文档无关时重新查询。

传统 RAG 和自反射 RAG 的区别

查询“美国各州名字的由来”:
生成“描述一次暑假旅行”:
总结
自反射 RAG 的优势在于动态决策能力、自我批判机制和输出质量保证,其通过反思与迭代机制大幅提升了回答的准确性、相关性和逻辑性,特别适用于需要证据支持的复杂任务或对高质量生成内容有严格要求的场景。
Speculative RAG 是一种智能框架,旨在使 LLM 在回答问题时更快速且更准确。它通过以下两种语言模型的分工实现这一目标:一个小型的专用模型,快速起草潜在答案。 一个大型的通用模型,核查这些草稿并选择最佳答案。

为什么需要 Speculative RAG?
当你提出问题,尤其是需要精准或最新信息的问题(如“新款 iPhone 的最新功能是什么?”)时,常规的 LLM 通常存在以下问题: 可能“幻觉”:模型可能会自信地给出错误或虚构的答案。 依赖过时知识:如果模型没有接受最新数据的训练,就无法提供最新事实。 复杂推理耗时:如果需要处理大量信息(如长文档),模型可能响应缓慢。
这时 RAG登场。RAG 从数据库或搜索引擎中检索实时相关文档,并利用这些文档生成答案。但问题在于,RAG 在处理大量数据时仍可能速度慢且资源消耗大。
Speculative RAG 通过增加以下专门分工解决了这个问题: 一个专门负责起草的 RAG 模型(快速生成初步答案)。 一个负责验证的通用 RAG 模型(确保最终答案准确)。
Speculative RAG 的工作原理
可以将 Speculative RAG 想象成一个两人团队解决难题的过程:
步骤 1:收集线索 “检索器”负责查找与问题相关的文档。例如,如果你问“谁在1980年的电影《朝九晚五》中扮演 Doralee Rhodes?”检索器会提取关于这部电影或音乐剧的文章。
步骤 2:起草答案(小型模型)一个较小、速度更快的语言模型(专用起草者)基于这些文档工作: 这个模型类似于快速绘制想法的初级侦探。
步骤 3:验证最佳答案(大型模型)一个较大、更强大的语言模型(通用验证者)随后介入,执行以下任务: 检查每个草稿的准确性和相关性。 根据置信度对草稿评分。 选择最佳草稿作为最终答案。 草稿 1 得到高分,因为它匹配了电影和问题。 草稿 2 得到低分,因为它与音乐剧相关而非电影。
最后系统自信地输出:“Dolly Parton 在1980年的电影《朝九晚五》中扮演了 Doralee Rhodes。”
为什么这种方法聪明?
更快的响应:较小的模型负责起草草稿,加快了速度。 更准确的答案:较大的模型专注于审查草稿,确保高质量结果。 高效资源利用:较大的模型不会浪费时间处理不必要的细节,只负责验证。
Speculative RAG 的主要优点
平衡性能:小模型快速起草,大模型验证准确性。 避免浪费精力:大模型只检查小模型建议的内容。 实际应用场景:适合回答需要推理和实时、最新信息的复杂问题。
Speculative RAG 就像拥有一个聪明的助手(专用起草者)和一个细致的编辑(通用验证者),确保你的答案既快速又准确!
RAG 方法对比

标准 RAG:
自反射 RAG: CRAG: Speculative RAG: 问题输入:系统接收需要知识密集型的问题,并检索相关文档。 并行起草:专用起草者对检索文档的子集并行工作,每个子集生成:
验证和选择:通用语言模型评估所有草稿(α1、α2、α3)及其推理,并分配分数,选择最可信的草稿作为最终答案。
Speculative RAG 框架在速度和准确性之间实现了完美平衡:
这种方法通过减少延迟并保持最先进的准确性,优于之前的方法。
Self Route Agentic RAG 是一种 AgtenticRAG 系统的设计模式,其中 LLM 在处理查询时扮演了主动决策的角色。该方法依赖于 LLM 的自我反思能力,判断它是否能够根据提供的上下文生成准确的响应。如果模型判定无法生成可靠的答案,它会将查询路由到其他方法(如长上下文模型)进行进一步处理。此架构利用 LLM 的内部校准机制判断可答性,以优化性能和成本。
该方法首次提出于论文《Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach》,结合了 RAG 与长上下文(LC),在保持与 LC 相当性能的同时实现了成本效率。
Self Route 的关键组件:LLM 决策:评估查询是否可以用提供的上下文回答。 路由:如果查询可回答,立即处理;否则,将其路由到具有更多或完整上下文的长上下文模型。 效率与准确性:在避免不必要计算的同时,仅在需要时使用长上下文模型,实现了成本效率和平衡性能。

1. 标准 RAG 流程输入查询与上下文检索:决策节点:RAG 提示(针对可回答的查询):
2. 长上下文 LLM 流程触发条件:合并上下文文档:长上下文提示:
关键特性与工作流程:动态决策:
双层回答生成: 精细化控制的提示: 可扩展的向量数据库:
总结
标准 RAG 流程:高效处理具有充足上下文的查询。 长上下文 LLM 流程:通过合并多个文档构建连贯的长上下文,扩展了系统处理复杂查询的能力。 精心设计的提示与决策节点:确保准确性、上下文依赖性以及对不同查询需求的适应性。
随着 RAG 领域的不断发展,Agentic RAG 系统已经成为一项变革性创新,将传统的 RAG 工作流程与 AI Agent 的自主性和适应性相结合。这种融合使系统能够动态地检索相关知识,智能优化上下文,并以高精度执行多步骤任务。
从 Agentic RAG Routers和 Self-Reflective RAG到诸如 Speculative RAG和 Self-Route RAG)这样的高级架构,每种方法都针对特定挑战(如无关检索、推理错误或计算效率低下)提出了解决方案。这些系统在提升准确性、适应性和可扩展性方面表现出了显著进步,应用领域覆盖了客户支持、工作流自动化和研究辅助等多种场景。
通过将生成式 AI 与先进的检索机制相结合,Agentic RAG 不仅提高了效率,还为未来的 AI 创新奠定了基础。随着我们迈向 2025 年,这些技术将重新定义我们利用数据、自动化工作流以及解决复杂问题的方式,使其成为企业和开发者不可或缺的工具组合。 |