Adaptive-RAG：通过问题复杂性学习自适应检索增强LLM - 链载Ai

本文提出了一种自适应QA框架：Adaptive-RAG，能根据查询的复杂程度动态选择最适合的检索增强策略，从简单到复杂逐步调整。此框架使用一个小模型作为分类器，预测查询的复杂性并自动收集标签以优化选择过程。该方法在多种查询复杂性下提升了问答系统的效率和准确性，并在多个开放领域数据集上得到验证。

Adaptive-RAG 框架

本文提出了一个名为自适应检索增强生成（Adaptive-RAG）的新框架，用于解决查询复杂度不同的问题。

1. 查询复杂度评估

首先，提出了一个小型语言模型作为分类器，用于预测查询的复杂度。分类器有三个标签：

‘A’ 表示简单查询。
‘B’ 表示中等复杂度查询。
‘C’ 表示复杂查询。

2. 训练策略

为了训练分类器，作者自动收集了标注数据。具体策略包括：

根据三种不同的检索增强 LLM 策略的结果标注查询复杂度。
优先使用简单模型进行标注，对于未标注的查询，根据数据集的内生偏差分配标签。

3. 自适应策略

根据分类器的预测结果，自适应地选择最合适的检索增强策略：

对于简单查询，使用非检索方法。
对于中等复杂度查询，使用单步检索方法。
对于复杂查询，使用多步检索方法。

公式描述如下：[ o = \text{Classifier}(q) ] 其中，( o ) 是查询的复杂度标签，( q ) 是输入查询，(\text{Classifier}) 是用于预测查询复杂度的分类器。

实验设计

1. 数据集

使用了多个公开的单步和多步问答数据集，包括：

SQuAD v1.1
Natural Questions
TriviaQA
MuSiQue
HotpotQA
2WikiMultiHopQA

2. 模型

比较了自适应-RAG 与相关的三种检索增强 LLM 策略（非检索、单步检索、多步检索）以及现有的自适应检索方法（如 Self-RAG）。

3. 评估指标

同时考虑了任务的性能和效率，使用了以下评估指标：

F1
EM
Accuracy
检索和生成步骤数
每个查询的平均回答时间

4. 实现细节

使用 BM25 作为检索器。
FLAN-T5 系列模型和 GPT-3.5 模型作为 LLM。
分类器使用 T5-Large 模型。
实验在 A100 GPU 上进行，每个数据集使用 500 个样本进行评估。

结果分析

1. 总体结果

实验结果表明，自适应-RAG 在有效性和效率上都优于现有的自适应策略。特别是在处理复杂查询时，自适应-RAG 能够更有效地利用资源，提高答案的准确性。

2. 分类器性能

分类器的准确性优于其他自适应检索基线，从而提高了整体问答性能。分类器的混淆矩阵显示：

‘C(Multi)’ 有时被误分类为 ‘B(One)’（约 31%）。
‘B(One)’ 被误分类为 ‘C(Multi)’（约 23%）。
‘A(No)’ 常被误分类为 ‘B(One)’（约 47%），较少被误分类为 ‘C(Multi)’（约 22%）。

3. 效率分析

通过识别简单或直接的查询，可以显著提高效率。分类器的预测时间也显示出在不同复杂度查询下的显著差异。

4. 训练数据策略

结合了模型预测结果和数据集内生偏差的双轨策略，比仅依赖数据集内生偏差的策略更有效。

应用场景

自适应检索增强生成（Adaptive Retrieval-Augmented Generation, Adaptive-RAG）框架具有多种潜在的应用场景，这些场景主要涉及需要处理不同复杂度查询的任务。以下是一些具体的应用场景：

1. 智能客服和聊天机器人

应用描述：在智能客服和聊天机器人系统中，用户会提出各种复杂度的查询，从简单的产品信息查询到复杂的故障诊断或投诉处理。Adaptive-RAG 可以根据查询的复杂度动态调整其响应策略，从而提高客户服务的效率和满意度。

优势：

高效处理简单查询： 对于简单的查询，Adaptive-RAG 可以直接使用语言模型生成答案，无需额外的检索步骤，提高响应速度。
准确处理复杂查询： 对于复杂的查询，Adaptive-RAG 可以通过多步检索和推理来提供更准确的答案，确保问题得到妥善解决。

2. 个性化教育

应用描述：在在线教育平台中，学生可能会提出各种难度的问题，从基础概念到高级理论。Adaptive-RAG 可以根据问题的复杂度提供个性化的学习资源和支持。

优势：

基础问题快速解答： 对于基础概念问题，Adaptive-RAG 可以迅速生成答案，帮助学生巩固基础知识。
复杂问题深入解析： 对于高级或综合性的问题，Adaptive-RAG 可以通过检索相关资料和进行多步推理，提供详细的解析和解答，促进学生的深度理解。

3. 知识库问答系统

应用描述：知识库问答系统需要处理大量用户查询，涵盖从简单的事实性问题到复杂的逻辑推理问题。Adaptive-RAG 可以根据查询的复杂度选择合适的检索和生成策略，提高系统的整体性能。

优势：

提升查询效率： 对于简单查询，Adaptive-RAG 可以直接从语言模型中获取答案，减少检索开销。
增强复杂查询处理能力： 对于复杂查询，Adaptive-RAG 可以通过多步检索和推理，整合多个知识源的信息，提供全面的答案。

4. 新闻和内容生成

应用描述：在新闻摘要、内容创作和自动报告生成等任务中，Adaptive-RAG 可以根据输入信息的复杂度动态调整其生成策略，从而生成高质量的内容。

优势：

快速生成简单内容： 对于简单的新闻事件或事实性报道，Adaptive-RAG 可以直接使用语言模型生成摘要，提高生产效率。
深度分析复杂事件： 对于涉及多方面信息和逻辑推理的复杂事件，Adaptive-RAG 可以通过检索和多步推理，提供更全面和深入的分析。

5. 医疗咨询

应用描述：在医疗咨询系统中，患者可能会提出从常见症状到复杂疾病诊断的各种查询。Adaptive-RAG 可以根据查询的复杂度提供相应的医疗建议和信息。

优势：

基础健康信息快速获取： 对于常见的健康问题和症状，Adaptive-RAG 可以直接提供相关信息，帮助患者进行初步自我诊断。
复杂病情综合分析： 对于复杂的病情查询，Adaptive-RAG 可以通过检索医学文献和数据库，结合多步推理，提供更准确的诊断建议。

总结

自适应检索增强生成（Adaptive-RAG）框架，能够根据查询的复杂度动态选择最合适的检索增强策略。实验结果表明，自适应-RAG 在有效性和效率上均优于现有的方法，特别是在处理复杂查询时，能够更有效地利用资源，提高答案的准确性。未来的工作可以进一步改进分类器的训练数据和架构，以提高其性能，从而进一步提升整体问答系统的性能。

优点

提出自适应 QA 框架：论文提出了一种新颖的自适应 QA 框架，能够根据查询复杂度动态选择最合适的检索增强大型语言模型（RAG）策略，从最简单的到最复杂的。
分类器实现：通过一个较小的语言模型作为分类器，预测输入查询的复杂度级别，并自动收集训练数据集，无需人工标注。
平衡策略：该方法在迭代和单步检索增强 LLMs 以及无检索方法之间提供了平衡策略，显著提高了 QA 系统的整体效率和准确性。
多模态数据集验证：在多个开放域 QA 数据集上进行了验证，涵盖了单跳和多跳查询的多种复杂度。
显著改进：实验结果表明，与现有的自适应策略相比，Adaptive-RAG 在多个 LLMs（如 GPT-3.5 和 FLAN-T5 系列）上显著提高了整体准确性和效率。

不足

分类器训练数据集的限制：由于没有现成的查询复杂度分类器训练数据集，作者通过模型预测结果和数据集的内生偏差自动创建新数据，但这种方法可能存在标签错误的风险。
分类器性能的提升空间：尽管当前的分类器设计已经相对有效，但与理想分类器的性能差距表明，仍有改进分类器架构和性能的空间，这将有助于进一步提高 QA 系统的整体性能。
处理攻击性输入的能力：论文提到需要开发方法来检测和管理与用户输入和检索到的文档相关的攻击性或不适当内容，以确保系统的鲁棒性。

问答环节

问题1：自适应-RAG 框架是如何实现查询复杂度评估的？

自适应-RAG 框架通过一个小型语言模型（Classifier）来评估查询的复杂度。该分类器被训练用于区分三类查询：

简单查询（A）
中等复杂度查询（B）
复杂查询（C）

具体来说，分类器接收查询作为输入，并输出一个类别标签。为了训练这个分类器，研究者们采用了自动收集标注数据的方法，根据三种不同的检索增强策略的结果对查询进行复杂度标注，优先使用简单模型的标注结果，并在单步和多步方法结果一致时赋予更高优先级。对于未被标注的查询，根据数据集的内生偏差分配标签。

问题2：自适应-RAG 框架在不同复杂度查询之间是如何切换检索增强策略的？

自适应-RAG 框架根据分类器的预测结果，自适应地选择最合适的检索增强策略：

对于简单查询，框架直接使用非检索方法。
对于中等复杂度查询，框架使用单步检索增强方法。
对于复杂查询，框架使用多步检索增强方法。

这种策略切换确保了在不同复杂度的查询之间实现无缝衔接，同时在保证效率的同时提高问答系统的准确性。

问题3：自适应-RAG 框架在实验中的表现如何？与其他方法相比有哪些优势？

自适应-RAG 框架在实验中表现出色，显著优于现有的单步和多步检索增强方法。具体来说，自适应-RAG 在处理复杂查询时能够显著减少计算开销，同时保证较高的准确性。此外，分类器在区分不同复杂度查询方面表现良好，准确率高于其他基线方法。尽管存在一些误分类情况，但总体上能够有效区分三类查询。总体而言，自适应-RAG 在保持高效率的同时提高了问答系统的准确性，特别是在处理复杂查询时具有显著优势。