链载Ai

标题: 检索增强生成（RAG）评估 [打印本页]

作者: 链载Ai 时间: 4 天前
标题: 检索增强生成（RAG）评估

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 2em auto 1em;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(0, 152, 116);color: rgb(63, 63, 63);">检索增强生成（RAG）评估综述：

ingFang SC";font-size: 1em;letter-spacing: normal;text-wrap: wrap;text-align: left;line-height: 1.75;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">摘要

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">检索增强生成（RAG）在自然语言处理领域已经成为一个关键的创新，通过整合外部信息检索提高生成模型的性能。然而，由于其混合结构和对动态知识源的依赖，评估RAG系统面临独特的挑战。因此，我们进行了广泛的调查，并提出了一个分析框架 RGAR（Retrieval，Generation，Additional Requirement），用于系统化分析RAG系统的基准，通过专注于可测量的输出和已知的真相对RAG基准进行系统分析。具体来说，我们审查并对比了当前RAG评估方法中检索和生成组件的多个可量化指标，例如相关性、准确性和真实性，并覆盖可能的输出和真实情况对。在分析中，我们还研究了不同工作的附加要求，并讨论了当前基准的局限性，提出了进一步研究的潜在方向，以解决这些不足并推进RAG评估领域的发展。总之，本论文汇总了与RAG评估相关的挑战，并根据提出的RGAR框架对现有RAG基准设计方法进行了全面的分析和检验。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(0, 152, 116);color: rgb(255, 255, 255);">1 引言

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">RAG显著减少了“幻觉”或事实错误的生成输出的发生，从而提高了内容的可靠性和丰富性。[56] 这种检索与生成能力的结合，使得生成的响应不仅在上下文上是适当的，而且还是由最新和最准确的信息所支撑的，这是追求更智能和多功能语言模型的一种发展 [56|52]。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Fig. 1：RAG系统的结构，包含检索与生成组件及对应的四个阶段：索引、搜索、提示和推理。EOs和GTs的配对用红色和绿色标出，棕色虚线箭头表示。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">自从预训练语言模型出现以来，许多关于RAG系统的研究从各种角度展开 [14]。RAG系统包括两个主要部分：检索和生成。检索部分旨在从大量外部知识源中提取相关信息，涉及两个主要阶段：索引和搜索。索引组织文档以便高效检索，使用稀疏检索的倒排索引或密集检索的密集向量编码 [14|11|24]。搜索则利用这些索引根据用户的查询检索相关文档，通常会结合可选的重新排序器 [4344|5/43] 来优化检索文档的排序。生成部分利用检索到的内容来组成连贯且上下文相关的响应，通过提示和推理阶段完成。语言模型的输入是通过提示形成的，整合来自检索阶段的查询。Chain of Thought（CoT）[48] 或 Rephrase and Respond（RaR）[7] 等方法能引导产生更好的生成结果。在推理步骤中，大型语言模型（LLMs）解释提示的输入以生成准确且深度契合查询意图的响应，并整合提取的信息 [30[8]。在附录A中详细解释了RAG的结构，如图1所示例的RAG系统结构。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">随着RAG（Retrieval-Augmented Generation）特定方法的不断进步，评估RAG的重要性也在同步提升。一方面，RAG是一个复杂的系统，紧密关联着特定的需求和语言模型，导致出现了多种评估方法、指标和工具，特别是在黑盒式的大语言模型（LLM）生成方面。因此，评估RAG系统不仅涉及考虑多个特定的组成部分，还包括对整个系统复杂性的评估。另一方面，RAG系统的复杂性因动态的外部数据库和各种下游任务（如内容创作或开放域问答）而进一步加剧。这些挑战要求开发出能够有效捕捉检索准确性和生成质量之间相互作用的全面评估指标。为了进一步阐明这些要素，我们进行了这项关于RAG评估的调查，以解决该领域当前的空白，这与之前主要收集特定RAG方法或数据的RAG调查不同。我们汇编了12个不同的评估框架，涵盖了RAG系统的各个方面。我们进行了比较分析，并综合了各个组件的具体评估方法，重点关注准确性、忠实性和相关性等方面。我们还讨论了现有方法的局限性以及未来RAG评估的前景。我们希望为读者提供对RAG评估的全面理解。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">对于本文，我们从以下几个方面作出贡献：

1.评估挑战：这是首个通过 RAG 系统结构总结和分类 RAG 系统评估挑战的工作，包括检索、生成和整个系统三部分。
2.分析框架：基于这些挑战，我们提出了一个分析框架(RGAG)用于 RAG 基准测试，旨在导航 RAG 系统固有的复杂性，提供一种基础方法来评估其在多个方面的有效性。
3.RAG 基准分析：借助 RGAG 框架，我们对现有的 RAG 基准进行了全面分析，突出了它们的优势和局限，并提出了未来 RAG 系统评估发展的建议。

2 评估 RAG 系统的挑战

评估混合型 RAG 系统需要评估检索、生成以及整个 RAG 系统。这些评估是多层次的，需要仔细考虑和分析。每个部分都包含特定的困难，这些困难使得开发全面的评估框架和 RAG 系统的基准测试变得复杂。

检索RAG 系统的检索组件对于从外部知识源中获取生成过程所需的相关信息至关重要。评估这一组件的主要挑战之一是潜在知识库的动态性和广泛性，从结构化数据库到整个网络。这种广泛性要求评估指标能够有效衡量在给定查询上下文中检索到的文档的准确性、召回率和相关性 [43|27]。此外，信息的时间维度，即数据的相关性和准确性会随着时间变化，为评估过程增加了一层复杂性 [5]。此外，信息来源的多样性以及检索到误导性或低质量信息的可能性，给评估检索组件在过滤和选择最相关信息方面的效果带来了重大挑战 [34]。另一方面，检索组件的评估方法也是一大难题，因为传统的评估指标强制检索系统聚焦于更高的 TopK 召回率，而不是通过一次查询携带的有用信息。

生成目前由 LLMs 提供动力的生成组件根据检索内容生成连贯且具有上下文关联的回应。在评估这一组件时，一个显著的挑战在于评估生成内容对输入数据的忠实度和准确性。这不仅涉及评估回答的事实正确性，还包括其与原始查询的相关性以及生成文本的连贯性 [58|41]。某些任务的主观性质，例如创意内容生成或开放式问题回答，进一步复杂化了评估，因为这引入了对什么构成“正确”或“高质量”回应的可变性 [40]。

RAG System asaWhole. 对整个 RAG 系统的评估带来了额外的复杂性。检索和生成组件之间的相互作用意味着通过单独评估每个组件无法完全理解整个系统的性能 [41][13]。系统需要评估其有效利用检索到的信息以提高响应质量的能力，这涉及到衡量检索组件对生成过程的附加价值。此外，诸如响应延迟、对错误信息的鲁棒性以及处理模糊或复杂查询的能力等实际考量因素也是评估系统整体效能和可用性的关键 [34][5]。

3 RGAR: Analysis Framework for Evaluation

从传统的绝对数值指标到多源和多目标生成评估的目标转变，与检索和生成组件之间复杂的相互作用，带来了显著的挑战。在动态数据库中的搜索可能导致误导性结果或者事实矛盾。准确反映真实世界场景的多样且全面的数据集是至关重要的。在度量领域也存在挑战，包括针对不同下游任务的生成评估标准、人类偏好以及 RAG 系统中的实际考量。大多数之前的基准测试主要解决了 RAG 评估的一个或几个方面，但缺乏全面、整体的分析。

为了更好地理解 RAG 基准测试，我们提出了一个名为 RGAR（Retrieval, Generation, and Additional Requirement）的分析框架。它分别考虑目标、数据集和度量。目标模块旨在确定评估方向。数据集模块便于比较 RAG 基准测试中各种数据结构。最后的模块，度量，引入了在评估过程中使用的特定目标和数据集对应的度量标准。总体而言，它旨在通过涵盖“可评估输出”（EOs）和“真实值”（GTs）之间的所有可能组合，提供一种系统的方法来评估 RAG 系统在各个方面的效能。在接下来的部分中，我们将详细解释该框架，并利用它介绍和比较 RAG 基准测试。

Fig. 2: The Target modular of RGAR framework.

3.1 Evaluation Target (What to Evaluate?)

RAG 系统中 EOs 和 GTs 的组合可以生成所有可能的目标，这是 RGAR 框架的基本概念（如图 1 所示）。一旦确定，这些目标可以基于特定的 EOs 或 EOs 与 GT 的组合进行定义，如图 2 所示，用于分析当前 RAG 基准测试的各个方面。

Retrieval对检索组件的评估中，EOs 是取决于查询的相关文档。然后我们可以针对检索组件构建两种成对关系，即 Relevant Documents ↔ Query、Relevant Documents ↔ Documents Candidates。

•Relevance (Relevant Documents ↔ Query)评估检索到的文档与查询表达的信息需求的匹配度。它衡量检索过程的精确性和特异性。
•Accuracy (Relevant Documents ↔ Documents Candidates)评估检索到的文档与一组候选文档的准确性。它衡量系统识别并将相关文档排序高于不相关文档或无关文档的能力。

Generation生成组件的类似成对关系列在下面。EOs 是生成的文本和结构化内容。然后我们需要将这些 EOs 与提供的 GTs 和标签进行比较。

•Relevance (Response↔Query)衡量生成的响应与初始查询意图和内容的匹配程度。确保响应与查询主题相关，并满足查询的具体要求。
•Faithfulness (Response↔Relevant Documents)评估生成的响应是否准确反映相关文档中的信息，衡量生成内容与源文档之间的一致性。
•Correctness (Response↔Sample Response)类似于检索组件中的准确性，这衡量生成的响应与样本响应（作为真实值）之间的准确性。检查响应在事实信息方面的正确性及其在查询上下文中的适切性。

表 1：各框架中 RAG 系统评价目标及其相应指标

表格中以不同颜色区分了在检索和生成评估中的核心领域。不同的评估方面用不同颜色表示：相关性、检索准确性和忠实度、生成的正确性和相关性。此外，还考虑了超出检索和生成组件的额外需求。据指出，很多工作中采用了多种方法或同时评估了多个方面。

检索和生成组件的目标

表 1 列出了截至 2024 年 3 月，为改进和评估 RAG 及其基准的相关工作。表 1 描绘了这些信息，每个评价标准用不同颜色表示。例如，FeB4RAG [47] ，即倒数第四个，基于 [15] 提出了四个标准：一致性、正确性、清晰度和覆盖率。正确性相当于检索的准确性，一致性则等同于生成组件中的忠实度。虽然检索准确性衡量的是所检索信息的正确性，我们认为覆盖率与多样性更相关。因此，在我们提出的评估框架中，覆盖率与多样性和额外要求挂钩。剩下的标准，清晰度，也被归类为我们提出框架中的额外要求。其他工具和基准也采用了类似的处理方式。

工具和基准

工具和基准在评估 RAG 系统数据集时提供了不同程度的灵活性。工具仅指定评估目标，构建完整 RAG 应用和评估流水线的框架，如 [45/27|28] 等工作所示。基准则专注于 RAG 评估的不同方面，特别强调检索输出或生成目标。例如，RAGAs 和 ARES 评估文档检索的相关性，而 RGB 和 MultiHop-RAG [5|43] 则优先考虑准确性，需要与真实值(GT)进行比较。所有基准都考虑生成目标，因为它们在 RAG 系统中至关重要，尽管关注点有所不同。

额外要求

除了评估上述两个主要组件外，一些工作还解决了 RAG 的一些额外要求（表 2 中黑色和 Ltatic 目标）。这些要求包括：

•延迟 [1827] 测量系统找到信息并快速响应的速度，关键影响用户体验。
•多样性 [4[27] 检查系统是否检索到各种相关文档并生成多样化的回应。
•噪声鲁棒性 [5] 评估系统在处理无关信息时如何保持回应质量。
•否定拒绝 [5] 衡量系统在信息不足时不提供回应的能力。
•反事实鲁棒性 [5] 评估系统在识别和忽略错误信息，即使潜在误报时的能力。
•更多：针对更多人类偏好考量，可以设置更多额外要求，如可读性 [47|28] 、毒性、困惑度 [28] 等。

特殊情况

CRUD-RAG [34] 引入了一个全面基准，处理了问答之外的 RAG 应用，分为创建、阅读、更新和删除场景。该基准评估了 RAG 系统在文本续写、问答、幻觉修改和多文档摘要等任务中的表现，涵盖 CRUD 操作。它强调评估所有 RAG 组件，包括检索模型和外部知识库构建，为在不同场景中优化 RAG 技术提供见解。

3.2 评估数据集（如何评估？）

表 2：各基准使用的评估数据集。未注明引用的数据集由基准自行构建。

在表2中，不同的基准测试采用了不同的数据集构建策略，从利用现有资源到生成完全新的数据，专门用于特定评估方面。有几个基准测试借用了KILT (Knowledge Intensive Language Tasks) 基准的一部分 [37] (Natural Questions [25], HotpotQA [51], 和 FEVER [44]) 以及其他已建立的数据集，如SuperGLUE [46] (MultiRC [9] 和 ReCoRD [54]) [41]。然而，使用这些数据集的缺点是无法解决动态真实世界场景中的挑战。在由RAGAs [13]构建的WikiEval中也可以观察到类似的情况，它是从2022年后的维基百科页面生成的。

强大的LLM的出现革命性地改变了数据集构建的过程。利用这些框架设计查询和基于特定评估目标的真值，作者现在可以轻松创建所需格式的数据集。像RGB、MultiHop-RAG、CRUD-RAG和CDQA [5]43|34|50]这样的基准测试更进了一步，通过使用网络新闻文章建立自己的数据集，以测试RAG系统处理训练数据之外的真实世界信息的能力。

总之，数据集的创建和选择对于评估RAG系统至关重要。根据特定指标或任务定制的数据集可以提高评估准确性，并指导开发适应真实世界信息需求的RAG系统。

3.3 评估指标（如何量化？）

导航评估RAG系统的复杂领域需要对能够精确量化评估目标的指标有深刻理解。然而，创建符合人类偏好并解决实际考虑的评估标准是一项挑战。RAG系统中的每个组件都需要一个反映其独特功能和目标的定制评估方法。

检索指标各种目标可以用对应于给定数据集的各种指标来评估。本节将介绍几个用于检索和生成目标的常用指标。可以在这些常用指标中找到满足额外需求的指标。更具体设计的指标可以通过表1的原始论文作为参考进行探索。

对于检索评估，重点在于能够准确捕捉响应查询的信息的相关性、准确性、多样性和鲁棒性的指标。这些指标不仅必须反映系统在获取相关信息上的精确度，还要其在动态、广泛且有时误导性的数据环境中的韧性。在 [33] 的基准测试中使用误导率、错误再现率和错误检测率等指标表明了对RAG系统固有复杂性的高度重视。在 [43|50] 等基准测试中整合MAP@K、MRR@K和F1分词标注则展示了对传统检索多方面评估的深入理解。虽然 [15] 也强调这种基于排名的评估方法不适用于RAG系统，应该有更多RAG特定的检索评估指标。这些指标不仅捕捉了检索系统的精确度和召回率，还考虑了检索文档的多样性和相关性，与RAG系统信息需求的复杂性和动态性相一致。在 [13] 中引入LLM作为评估评委，进一步强调了检索评估的适应性和多功能性，提供了一种全面且具上下文意识的评估检索质量的方法。

非排名的指标非排名的指标通常评估二元结果——一个项目是否相关——而不考虑项目在排名列表中的位置。请注意，以下公式只是这些指标的一种形式，每个指标的定义可能因不同的评估任务而异。

•准确率表示检查的所有案件中真实结果（包括真阳性和真阴性）的比例。

Accuracy=TP+TN+FP+FNTP+TN

其中TP是真阳性数，$T N$ 是真阴性数，$F P$ 是假阳性数，$F N$ 是假阴性数。

•精确率表示检索到的实例中相关实例的比例。

Precision=TP+FPTP

其中TP表示真阳性而FP表示假阳性。

•前k名召回率(Recall@k)表示在所有相关实例中被检索到的相关实例的比例，仅考虑前k个结果。

Recall@k=∣RD∣∣RD∩Topkd∣

其中RD是相关文档，$T o p_{k d}$ 是前-k检索到的文档。

Rank-Based Metrics

Rank-based metrics evaluate the order in which relevant items are presented, with higher importance placed on the positioning of relevant items at the top of the ranking list.

•Mean Reciprocal Rank (MRR)is the average of the reciprocal ranks of the first correct answer for a set of queries.

MRR=∣Q∣1i=1∑∣Q∣ranki1

其中，∣Q∣是查询数量，$\operatorname{rank}_{i}$ 是第i个查询中第一个相关文档的排名位置。

•Mean Average Precision (MAP)is the mean of the average precision scores for each query.

MAP=∣Q∣1q=1∑∣Q∣∣relevantdocumentsq∣∑k=1n(P(k)×rel(k))

其中，$P(k)$ 是名单中截止到第k位的精准度，$\operatorname{rel}(k)$ 是指示函数，如果排名k处的项目是相关文档，则等于 1，否则为 0，$n$ 是检索到的文档数量。

Generation Metrics

在生成领域，评价已经超越了简单地评估生成响应的准确性，还包括文本的连贯性、相关性、流畅性以及与人类判断的一致性，这需要能评估语言生成细微方面的指标，比如事实正确性、可读性，用户对生成内容的满意度等。传统的指标如 BLEU、ROUGE 和 F1 Score 仍然非常重要，强调精准率和召回率在确定响应质量中的重要性。然而，新兴指标例如 Misleading Rate、Mistake Reappearance Rate 和 Error Detection Rate 的出现，表明了对 RAG 系统一些独特挑战的新理解 [33]。

人工评估依然是比较生成模型相互之间或与真实数据性能的重要标准之一。使用 LLMs 作为评价裁判的方法 [58] 是一种多功能且自动的质量评估方法，适用于传统的标准答案可能难以获得的场合 [13]。这种方法利用预测驱动推理（PPI）和上下文相关评分，提供了一个微妙的视角来评估 LLM 输出。[41] 通过战略性地使用详细提示模版，确保评估符合人类偏好，有效地在各种内容维度上标准化评估。这种转向利用 LLM 作为仲裁者的趋向标志着朝着自动化和上下文响应评价框架的重大进步，以最小的参考对比丰富了评估环境。

•ROUGERecall-Oriented Understudy for Gisting Evaluation (ROUGE) [32] 是一组用于评估摘要质量的指标，通过将生成的摘要与人工生成的参考摘要进行比较。ROUGE 的变体测量 $n$-grams （ROUGE-N、ROUGE-W）、词序列（ROUGE-L、ROUGE-S）和系统生成摘要与参考摘要之间的词对重叠。ROUGE 可以指示生成文本与参考文本之间的内容重叠情况。
•BLEUBilingual Evaluation Understudy (BLEU) [36] 是一种用于评估机器翻译文本质量的指标，通过与一个或多个参考翻译进行比较。BLEU 计算生成文本中 $n$-grams 的精准度，并应用长度惩罚以防止过短的翻译。尽管 BLEU 很受欢迎，但它也有局限性，例如不考虑生成文本的流畅性或语法性。
•BertScoreBertScore [55] 利用预训练的变压器模型（如 BERT）中的上下文嵌入来评估生成文本与参考文本之间的语义相似度。BertScore 计算基于上下文嵌入的词级相似度，并提供精准率、召回率和 F1 分数。与基于 $n$-grams 的指标不同，BertScore 捕捉词在上下文中的意义，使其对改写更具鲁棒性，对语义等价性更敏感。
•LLM as a Judge 将大型语言模型（LLM）作为评判者来评估生成文本是一种较新的方法。[58] 在这种方法中，LLM 被用来根据连贯性、相关性和流畅性等标准对生成的文本进行评分。LLM 可以通过对人类评判的微调来预测未见文本的质量，或者在零样本或少样本设置中用来生成评估。这种方法利用了 LLM 对语言和上下文的理解，以提供对文本质量更为细致的评估。例如，[1] 展示了如何通过向 LLM 评判者提供详细的评分指南，如 1 到 5 的评分标准，来标准化评估过程。这种方法涵盖了内容评估的关键方面，包括连贯性、相关性、流畅性、覆盖范围、多样性和细节——无论是在答案评估还是在查询制定的情况下。

使用 LLMs 作为评判生成文本的裁判是一个较新的方法。 [58] 在这种方法中，LLMs 根据连贯性、相关性和流利性等标准对生成的文本进行评分。LLM 可以通过微调人类判断来预测未见文本的质量，或者在零样本或少量样本设置中生成评估。这种方法利用了 LLM 对语言和语境的理解，从而提供更细致入微的文本质量评估。例如，[1] 展示了为 LLM 裁判提供详细评分指南（如从 1 到 5 的评分尺度）如何标准化评价过程。这种方法涵盖了内容评估的关键方面，包括连贯性、相关性、流利性、覆盖面、多样性和细节——既在答案评估的背景下，也在查询形成的背景下。

Additional Requirements

这些附加要求，如延迟、多样性、噪声鲁棒性、负面拒绝和反事实鲁棒性等，用于确保 RAG 系统在真实场景中的实用性，符合人类偏好。本节探讨了用于评估这些附加要求的指标，并强调了它们在全面评估 RAG 系统中的重要性。

Latency

延迟衡量 RAG 系统检索相关信息并生成响应所需的时间。它是用户体验的关键因素，特别是在聊天机器人或搜索引擎等交互式应用中 [18]。

•Single Query Latency: 处理单个查询的平均时间，包括检索和生成阶段。

Diversity

多样性评估 RAG 系统检索和生成的信息的多样性和广度。它确保系统能够提供广泛的观点，避免响应中的重复性 [4]。

•Cosine Similarity / Cosine Distance: 余弦相似度/距离计算检索到的文档或生成响应的嵌入。较低的余弦相似度分数表示较高的多样性，这表明系统能够检索或生成更广泛的信息。

Noise Robustness

噪声鲁棒性衡量 RAG 系统在不影响响应质量的情况下处理无关或误导信息的能力 [33]。[33] 中描述了“误导率”和“错误重现率”等指标，为特定数据集和实验设置提供了详细描述。

Negative Rejection

负面拒绝评估系统在信息不足或过于模糊以至于无法提供准确答案时，拒绝生成响应的能力 [5]。

•Rejection Rate: 系统拒绝生成响应的比率。

Counterfactual Robustness

反事实鲁棒性评估系统识别和忽略检索文档中不正确或反事实信息的能力 [34]。

•Error Detection Rate: 检测到的反事实陈述在检索信息中的比率。

4 Discussion

评估检索增强生成（RAG）系统包含多方面的挑战，因为这些系统依赖于检索准确、相关的信息并生成符合用户期望的连贯响应。本综述强调了几个关键考虑点，捕捉评估 RAG 技术所需的广度和深度。

在评价目标方面，传统的问题回答（QA）设置对于评估生成组件的效果仍然有效，特别是在它们是否符合人们对清晰度、相关性和准确性的偏好。不过，诸如基于 CRUD 的评估这样的新策略，通过审查 RAG 系统在动态信息环境中的交互能力，提供了新的视角 [34]。这些方法强调了 RAG 评估需要超越静态基准，反映出信息不断更新且查询并不限于事实性而是探索性或对话性的真实情况。

在数据集方面，设计一个“一刀切”的数据集的挑战尤为明显，因为 RAG 系统具有高度任务特定的特点。为测试 RAG 性能的特定方面而精心制作的独特数据集是必不可少的。这种方法虽然确保了彻底的、有针对性的评估，但也增加了全面测试所需的努力和资源。从新闻文章到结构化数据库的数据集的差异性，反映了 RAG 系统所需的适应性，但也预示着统一评估的重大障碍 [49|50]。当谈到评估指标时，使用大规模语言模型（LLM）作为自动评估判定者呈现出一个蓬勃发展的趋势，与人工评估相比，LLM在生成输出和推理方面显示出了更大的多样性和深度。然而，使用LLM作为聊天机器人回复的判定者面临挑战，包括与人类判断的一致性、建立有效的评分标准以及在不同应用场景中保持一致评估。自动化和人工评估之间对正确性、清晰度和丰富性的判断可能存在差异。此外，基于示例的评分的效果可能会有所不同，并且没有普遍适用的评分标准，这使得标准化LLM作为判定者变得复杂 [28] 。

未来RAG评估的方向应集中在开发更具适应性、上下文感知的基准，准确反映这些系统旨在导航的动态信息丰富的环境。这些努力可能包括在评估数据集中模拟实时信息更新，或者将用户反馈环路纳入评估方法。此外，探索更细微的评估指标以捕捉人类语言理解和生成的微妙之处——超越纯粹的准确性或相关性——将是至关重要的。将这些进展编纂成标准化的评估框架的努力将显著推动该领域的发展，提供更清晰的进步基准，并更直接地使RAG系统的进步与用户需求和社会影响保持一致。

5 结论

本调查系统地探索了评估检索增强生成（RAG）系统的复杂领域，强调了评估其性能所固有的多重挑战。通过提出的RGAR分析框架，我们划定了一种结构化的方法来剖析RAG评估的复杂性，专注于支撑这些系统的检索、生成以及额外要求。我们的综合分析强调了需要有针对性的基准来反映检索精度和生成质量之间的动态平衡，以及对实际应用至关重要的考虑因素。通过识别当前方法中的缺口并建议未来的研究方向，本调查旨在为RAG系统的更细致、更有效和与用户对齐的评估铺平道路，最终促进智能且多功能的自然语言处理技术的发展。

欢迎光临链载Ai (https://www.lianzai.com/)