1.评估挑战:这是首个通过 RAG 系统结构总结和分类 RAG 系统评估挑战的工作,包括检索、生成和整个系统三部分。
2.分析框架:基于这些挑战,我们提出了一个分析框架(RGAG)用于 RAG 基准测试,旨在导航 RAG 系统固有的复杂性,提供一种基础方法来评估其在多个方面的有效性。
3.RAG 基准分析:借助 RGAG 框架,我们对现有的 RAG 基准进行了全面分析,突出了它们的优势和局限,并提出了未来 RAG 系统评估发展的建议。
评估混合型 RAG 系统需要评估检索、生成以及整个 RAG 系统。这些评估是多层次的,需要仔细考虑和分析。每个部分都包含特定的困难,这些困难使得开发全面的评估框架和 RAG 系统的基准测试变得复杂。
检索RAG 系统的检索组件对于从外部知识源中获取生成过程所需的相关信息至关重要。评估这一组件的主要挑战之一是潜在知识库的动态性和广泛性,从结构化数据库到整个网络。这种广泛性要求评估指标能够有效衡量在给定查询上下文中检索到的文档的准确性、召回率和相关性 [43|27]。此外,信息的时间维度,即数据的相关性和准确性会随着时间变化,为评估过程增加了一层复杂性 [5]。此外,信息来源的多样性以及检索到误导性或低质量信息的可能性,给评估检索组件在过滤和选择最相关信息方面的效果带来了重大挑战 [34]。另一方面,检索组件的评估方法也是一大难题,因为传统的评估指标强制检索系统聚焦于更高的 TopK 召回率,而不是通过一次查询携带的有用信息。
生成目前由 LLMs 提供动力的生成组件根据检索内容生成连贯且具有上下文关联的回应。在评估这一组件时,一个显著的挑战在于评估生成内容对输入数据的忠实度和准确性。这不仅涉及评估回答的事实正确性,还包括其与原始查询的相关性以及生成文本的连贯性 [58|41]。某些任务的主观性质,例如创意内容生成或开放式问题回答,进一步复杂化了评估,因为这引入了对什么构成“正确”或“高质量”回应的可变性 [40]。
RAG System asaWhole. 对整个 RAG 系统的评估带来了额外的复杂性。检索和生成组件之间的相互作用意味着通过单独评估每个组件无法完全理解整个系统的性能 [41][13]。系统需要评估其有效利用检索到的信息以提高响应质量的能力,这涉及到衡量检索组件对生成过程的附加价值。此外,诸如响应延迟、对错误信息的鲁棒性以及处理模糊或复杂查询的能力等实际考量因素也是评估系统整体效能和可用性的关键 [34][5]。
从传统的绝对数值指标到多源和多目标生成评估的目标转变,与检索和生成组件之间复杂的相互作用,带来了显著的挑战。在动态数据库中的搜索可能导致误导性结果或者事实矛盾。准确反映真实世界场景的多样且全面的数据集是至关重要的。在度量领域也存在挑战,包括针对不同下游任务的生成评估标准、人类偏好以及 RAG 系统中的实际考量。大多数之前的基准测试主要解决了 RAG 评估的一个或几个方面,但缺乏全面、整体的分析。
为了更好地理解 RAG 基准测试,我们提出了一个名为 RGAR(Retrieval, Generation, and Additional Requirement)的分析框架。它分别考虑目标、数据集和度量。目标模块旨在确定评估方向。数据集模块便于比较 RAG 基准测试中各种数据结构。最后的模块,度量,引入了在评估过程中使用的特定目标和数据集对应的度量标准。总体而言,它旨在通过涵盖“可评估输出”(EOs)和“真实值”(GTs)之间的所有可能组合,提供一种系统的方法来评估 RAG 系统在各个方面的效能。在接下来的部分中,我们将详细解释该框架,并利用它介绍和比较 RAG 基准测试。
Fig. 2: The Target modular of RGAR framework.
RAG 系统中 EOs 和 GTs 的组合可以生成所有可能的目标,这是 RGAR 框架的基本概念(如图 1 所示)。一旦确定,这些目标可以基于特定的 EOs 或 EOs 与 GT 的组合进行定义,如图 2 所示,用于分析当前 RAG 基准测试的各个方面。
Retrieval对检索组件的评估中,EOs 是取决于查询的相关文档。然后我们可以针对检索组件构建两种成对关系,即 Relevant Documents ↔ Query、Relevant Documents ↔ Documents Candidates。
•Relevance (Relevant Documents ↔ Query)评估检索到的文档与查询表达的信息需求的匹配度。它衡量检索过程的精确性和特异性。
•Accuracy (Relevant Documents ↔ Documents Candidates)评估检索到的文档与一组候选文档的准确性。它衡量系统识别并将相关文档排序高于不相关文档或无关文档的能力。
Generation生成组件的类似成对关系列在下面。EOs 是生成的文本和结构化内容。然后我们需要将这些 EOs 与提供的 GTs 和标签进行比较。
•Relevance (Response↔Query)衡量生成的响应与初始查询意图和内容的匹配程度。确保响应与查询主题相关,并满足查询的具体要求。
•Faithfulness (Response↔Relevant Documents)评估生成的响应是否准确反映相关文档中的信息,衡量生成内容与源文档之间的一致性。
•Correctness (Response↔Sample Response)类似于检索组件中的准确性,这衡量生成的响应与样本响应(作为真实值)之间的准确性。检查响应在事实信息方面的正确性及其在查询上下文中的适切性。
表格中以不同颜色区分了在检索和生成评估中的核心领域。不同的评估方面用不同颜色表示:相关性、检索准确性和忠实度、生成的正确性和相关性。此外,还考虑了超出检索和生成组件的额外需求。据指出,很多工作中采用了多种方法或同时评估了多个方面。
表 1 列出了截至 2024 年 3 月,为改进和评估 RAG 及其基准的相关工作。表 1 描绘了这些信息,每个评价标准用不同颜色表示。例如,FeB4RAG [47] ,即倒数第四个,基于 [15] 提出了四个标准:一致性、正确性、清晰度和覆盖率。正确性相当于检索的准确性,一致性则等同于生成组件中的忠实度。虽然检索准确性衡量的是所检索信息的正确性,我们认为覆盖率与多样性更相关。因此,在我们提出的评估框架中,覆盖率与多样性和额外要求挂钩。剩下的标准,清晰度,也被归类为我们提出框架中的额外要求。其他工具和基准也采用了类似的处理方式。
工具和基准在评估 RAG 系统数据集时提供了不同程度的灵活性。工具仅指定评估目标,构建完整 RAG 应用和评估流水线的框架,如 [45/27|28] 等工作所示。基准则专注于 RAG 评估的不同方面,特别强调检索输出或生成目标。例如,RAGAs 和 ARES 评估文档检索的相关性,而 RGB 和 MultiHop-RAG [5|43] 则优先考虑准确性,需要与真实值(GT)进行比较。所有基准都考虑生成目标,因为它们在 RAG 系统中至关重要,尽管关注点有所不同。
除了评估上述两个主要组件外,一些工作还解决了 RAG 的一些额外要求(表 2 中黑色和 Ltatic 目标)。这些要求包括:
•延迟 [1827] 测量系统找到信息并快速响应的速度,关键影响用户体验。
•多样性 [4[27] 检查系统是否检索到各种相关文档并生成多样化的回应。
•噪声鲁棒性 [5] 评估系统在处理无关信息时如何保持回应质量。
•否定拒绝 [5] 衡量系统在信息不足时不提供回应的能力。
•反事实鲁棒性 [5] 评估系统在识别和忽略错误信息,即使潜在误报时的能力。
•更多:针对更多人类偏好考量,可以设置更多额外要求,如可读性 [47|28] 、毒性、困惑度 [28] 等。
CRUD-RAG [34] 引入了一个全面基准,处理了问答之外的 RAG 应用,分为创建、阅读、更新和删除场景。该基准评估了 RAG 系统在文本续写、问答、幻觉修改和多文档摘要等任务中的表现,涵盖 CRUD 操作。它强调评估所有 RAG 组件,包括检索模型和外部知识库构建,为在不同场景中优化 RAG 技术提供见解。
表 2:各基准使用的评估数据集。未注明引用的数据集由基准自行构建。
在表2中,不同的基准测试采用了不同的数据集构建策略,从利用现有资源到生成完全新的数据,专门用于特定评估方面。有几个基准测试借用了KILT (Knowledge Intensive Language Tasks) 基准的一部分 [37] (Natural Questions [25], HotpotQA [51], 和 FEVER [44]) 以及其他已建立的数据集,如SuperGLUE [46] (MultiRC [9] 和 ReCoRD [54]) [41]。然而,使用这些数据集的缺点是无法解决动态真实世界场景中的挑战。在由RAGAs [13]构建的WikiEval中也可以观察到类似的情况,它是从2022年后的维基百科页面生成的。
强大的LLM的出现革命性地改变了数据集构建的过程。利用这些框架设计查询和基于特定评估目标的真值,作者现在可以轻松创建所需格式的数据集。像RGB、MultiHop-RAG、CRUD-RAG和CDQA [5]43|34|50]这样的基准测试更进了一步,通过使用网络新闻文章建立自己的数据集,以测试RAG系统处理训练数据之外的真实世界信息的能力。
总之,数据集的创建和选择对于评估RAG系统至关重要。根据特定指标或任务定制的数据集可以提高评估准确性,并指导开发适应真实世界信息需求的RAG系统。
导航评估RAG系统的复杂领域需要对能够精确量化评估目标的指标有深刻理解。然而,创建符合人类偏好并解决实际考虑的评估标准是一项挑战。RAG系统中的每个组件都需要一个反映其独特功能和目标的定制评估方法。
检索指标 各种目标可以用对应于给定数据集的各种指标来评估。本节将介绍几个用于检索和生成目标的常用指标。可以在这些常用指标中找到满足额外需求的指标。更具体设计的指标可以通过表1的原始论文作为参考进行探索。
对于检索评估,重点在于能够准确捕捉响应查询的信息的相关性、准确性、多样性和鲁棒性的指标。这些指标不仅必须反映系统在获取相关信息上的精确度,还要其在动态、广泛且有时误导性的数据环境中的韧性。在 [33] 的基准测试中使用误导率、错误再现率和错误检测率等指标表明了对RAG系统固有复杂性的高度重视。在 [43|50] 等基准测试中整合MAP@K、MRR@K和F1分词标注则展示了对传统检索多方面评估的深入理解。虽然 [15] 也强调这种基于排名的评估方法不适用于RAG系统,应该有更多RAG特定的检索评估指标。这些指标不仅捕捉了检索系统的精确度和召回率,还考虑了检索文档的多样性和相关性,与RAG系统信息需求的复杂性和动态性相一致。在 [13] 中引入LLM作为评估评委,进一步强调了检索评估的适应性和多功能性,提供了一种全面且具上下文意识的评估检索质量的方法。
非排名的指标 非排名的指标通常评估二元结果——一个项目是否相关——而不考虑项目在排名列表中的位置。请注意,以下公式只是这些指标的一种形式,每个指标的定义可能因不同的评估任务而异。
•准确率表示检查的所有案件中真实结果(包括真阳性和真阴性)的比例。
Accuracy=TP+TN+FP+FNTP+TN
其中TP是真阳性数,$T N$ 是真阴性数,$F P$ 是假阳性数,$F N$ 是假阴性数。
•精确率表示检索到的实例中相关实例的比例。
Precision=TP+FPTP
其中TP表示真阳性而FP表示假阳性。
•前k名召回率(Recall@k)表示在所有相关实例中被检索到的相关实例的比例,仅考虑前k个结果。
Recall@k=∣RD∣∣RD∩Topkd∣
其中RD是相关文档,$T o p_{k d}$ 是前-k检索到的文档。
Rank-based metrics evaluate the order in which relevant items are presented, with higher importance placed on the positioning of relevant items at the top of the ranking list.
•Mean Reciprocal Rank (MRR)is the average of the reciprocal ranks of the first correct answer for a set of queries.
MRR=∣Q∣1i=1∑∣Q∣ranki1
其中,∣Q∣是查询数量,$\operatorname{rank}_{i}$ 是第i个查询中第一个相关文档的排名位置。
•Mean Average Precision (MAP)is the mean of the average precision scores for each query.
MAP=∣Q∣1q=1∑∣Q∣∣relevantdocumentsq∣∑k=1n(P(k)×rel(k))
其中,$P(k)$ 是名单中截止到第k位的精准度,$\operatorname{rel}(k)$ 是指示函数,如果排名k处的项目是相关文档,则等于 1,否则为 0,$n$ 是检索到的文档数量。
在生成领域,评价已经超越了简单地评估生成响应的准确性,还包括文本的连贯性、相关性、流畅性以及与人类判断的一致性,这需要能评估语言生成细微方面的指标,比如事实正确性、可读性,用户对生成内容的满意度等。传统的指标如 BLEU、ROUGE 和 F1 Score 仍然非常重要,强调精准率和召回率在确定响应质量中的重要性。然而,新兴指标例如 Misleading Rate、Mistake Reappearance Rate 和 Error Detection Rate 的出现, 表明了对 RAG 系统一些独特挑战的新理解 [33]。
人工评估依然是比较生成模型相互之间或与真实数据性能的重要标准之一。使用 LLMs 作为评价裁判的方法 [58] 是一种多功能且自动的质量评估方法,适用于传统的标准答案可能难以获得的场合 [13]。这种方法利用预测驱动推理(PPI)和上下文相关评分,提供了一个微妙的视角来评估 LLM 输出。[41] 通过战略性地使用详细提示模版,确保评估符合人类偏好,有效地在各种内容维度上标准化评估。这种转向利用 LLM 作为仲裁者的趋向标志着朝着自动化和上下文响应评价框架的重大进步,以最小的参考对比丰富了评估环境。
•ROUGERecall-Oriented Understudy for Gisting Evaluation (ROUGE) [32] 是一组用于评估摘要质量的指标,通过将生成的摘要与人工生成的参考摘要进行比较。ROUGE 的变体测量 $n$-grams (ROUGE-N、ROUGE-W)、词序列(ROUGE-L、ROUGE-S)和系统生成摘要与参考摘要之间的词对重叠。ROUGE 可以指示生成文本与参考文本之间的内容重叠情况。
•BLEUBilingual Evaluation Understudy (BLEU) [36] 是一种用于评估机器翻译文本质量的指标,通过与一个或多个参考翻译进行比较。BLEU 计算生成文本中 $n$-grams 的精准度,并应用长度惩罚以防止过短的翻译。尽管 BLEU 很受欢迎,但它也有局限性,例如不考虑生成文本的流畅性或语法性。
•BertScoreBertScore [55] 利用预训练的变压器模型(如 BERT)中的上下文嵌入来评估生成文本与参考文本之间的语义相似度。BertScore 计算基于上下文嵌入的词级相似度,并提供精准率、召回率和 F1 分数。与基于 $n$-grams 的指标不同,BertScore 捕捉词在上下文中的意义,使其对改写更具鲁棒性,对语义等价性更敏感。
•LLM as a Judge 将大型语言模型(LLM)作为评判者来评估生成文本是一种较新的方法。[58] 在这种方法中,LLM 被用来根据连贯性、相关性和流畅性等标准对生成的文本进行评分。LLM 可以通过对人类评判的微调来预测未见文本的质量,或者在零样本或少样本设置中用来生成评估。这种方法利用了 LLM 对语言和上下文的理解,以提供对文本质量更为细致的评估。例如,[1] 展示了如何通过向 LLM 评判者提供详细的评分指南,如 1 到 5 的评分标准,来标准化评估过程。这种方法涵盖了内容评估的关键方面,包括连贯性、相关性、流畅性、覆盖范围、多样性和细节——无论是在答案评估还是在查询制定的情况下。
使用 LLMs 作为评判生成文本的裁判是一个较新的方法。 [58] 在这种方法中,LLMs 根据连贯性、相关性和流利性等标准对生成的文本进行评分。LLM 可以通过微调人类判断来预测未见文本的质量,或者在零样本或少量样本设置中生成评估。这种方法利用了 LLM 对语言和语境的理解,从而提供更细致入微的文本质量评估。例如,[1] 展示了为 LLM 裁判提供详细评分指南(如从 1 到 5 的评分尺度)如何标准化评价过程。这种方法涵盖了内容评估的关键方面,包括连贯性、相关性、流利性、覆盖面、多样性和细节——既在答案评估的背景下,也在查询形成的背景下。
这些附加要求,如延迟、多样性、噪声鲁棒性、负面拒绝和反事实鲁棒性等,用于确保 RAG 系统在真实场景中的实用性,符合人类偏好。本节探讨了用于评估这些附加要求的指标,并强调了它们在全面评估 RAG 系统中的重要性。
延迟衡量 RAG 系统检索相关信息并生成响应所需的时间。它是用户体验的关键因素,特别是在聊天机器人或搜索引擎等交互式应用中 [18]。
•Single Query Latency: 处理单个查询的平均时间,包括检索和生成阶段。
多样性评估 RAG 系统检索和生成的信息的多样性和广度。它确保系统能够提供广泛的观点,避免响应中的重复性 [4]。
•Cosine Similarity / Cosine Distance: 余弦相似度/距离计算检索到的文档或生成响应的嵌入。较低的余弦相似度分数表示较高的多样性,这表明系统能够检索或生成更广泛的信息。
噪声鲁棒性衡量 RAG 系统在不影响响应质量的情况下处理无关或误导信息的能力 [33]。[33] 中描述了“误导率”和“错误重现率”等指标,为特定数据集和实验设置提供了详细描述。
负面拒绝评估系统在信息不足或过于模糊以至于无法提供准确答案时,拒绝生成响应的能力 [5]。
•Rejection Rate: 系统拒绝生成响应的比率。
反事实鲁棒性评估系统识别和忽略检索文档中不正确或反事实信息的能力 [34]。
•Error Detection Rate: 检测到的反事实陈述在检索信息中的比率。
评估检索增强生成(RAG)系统包含多方面的挑战,因为这些系统依赖于检索准确、相关的信息并生成符合用户期望的连贯响应。本综述强调了几个关键考虑点,捕捉评估 RAG 技术所需的广度和深度。
在评价目标方面,传统的问题回答(QA)设置对于评估生成组件的效果仍然有效,特别是在它们是否符合人们对清晰度、相关性和准确性的偏好。不过,诸如基于 CRUD 的评估这样的新策略,通过审查 RAG 系统在动态信息环境中的交互能力,提供了新的视角 [34]。这些方法强调了 RAG 评估需要超越静态基准,反映出信息不断更新且查询并不限于事实性而是探索性或对话性的真实情况。
在数据集方面,设计一个“一刀切”的数据集的挑战尤为明显,因为 RAG 系统具有高度任务特定的特点。为测试 RAG 性能的特定方面而精心制作的独特数据集是必不可少的。这种方法虽然确保了彻底的、有针对性的评估,但也增加了全面测试所需的努力和资源。从新闻文章到结构化数据库的数据集的差异性,反映了 RAG 系统所需的适应性,但也预示着统一评估的重大障碍 [49|50]。 当谈到评估指标时,使用大规模语言模型(LLM)作为自动评估判定者呈现出一个蓬勃发展的趋势,与人工评估相比,LLM在生成输出和推理方面显示出了更大的多样性和深度。然而,使用LLM作为聊天机器人回复的判定者面临挑战,包括与人类判断的一致性、建立有效的评分标准以及在不同应用场景中保持一致评估。自动化和人工评估之间对正确性、清晰度和丰富性的判断可能存在差异。此外,基于示例的评分的效果可能会有所不同,并且没有普遍适用的评分标准,这使得标准化LLM作为判定者变得复杂 [28] 。
未来RAG评估的方向应集中在开发更具适应性、上下文感知的基准,准确反映这些系统旨在导航的动态信息丰富的环境。这些努力可能包括在评估数据集中模拟实时信息更新,或者将用户反馈环路纳入评估方法。此外,探索更细微的评估指标以捕捉人类语言理解和生成的微妙之处——超越纯粹的准确性或相关性——将是至关重要的。将这些进展编纂成标准化的评估框架的努力将显著推动该领域的发展,提供更清晰的进步基准,并更直接地使RAG系统的进步与用户需求和社会影响保持一致。
本调查系统地探索了评估检索增强生成(RAG)系统的复杂领域,强调了评估其性能所固有的多重挑战。通过提出的RGAR分析框架,我们划定了一种结构化的方法来剖析RAG评估的复杂性,专注于支撑这些系统的检索、生成以及额外要求。我们的综合分析强调了需要有针对性的基准来反映检索精度和生成质量之间的动态平衡,以及对实际应用至关重要的考虑因素。通过识别当前方法中的缺口并建议未来的研究方向,本调查旨在为RAG系统的更细致、更有效和与用户对齐的评估铺平道路,最终促进智能且多功能的自然语言处理技术的发展。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |