链载Ai

标题: 亚马逊开源RAG评估框架:RAGChecker,专治RAG回答不准 [打印本页]

作者: 链载Ai    时间: 昨天 11:58
标题: 亚马逊开源RAG评估框架:RAGChecker,专治RAG回答不准

尽管RAG模型在许多应用中表现出色,但它们在实际使用中也可能面临回答不准确的问题,那么如何有效地诊断和解决这些问题就显得尤为重要。亚马逊发布了一个全新的开源工具——RAGChecker,旨在帮助开发者和研究人员对RAG系统进行全面、可靠、细粒度诊断,着重解决AI回答不准的问题,并为进一步提升性能,提供可操作的方向。这个工具就像是给RAG系统开了一剂"药方",帮助它"康复",为我们的开发者打造更智能、更可靠的RAG系统。

论文:https://arxiv.org/pdf/2408.08067

项目:https://github.com/amazon-science/RAGChecker

了解现有 RAG 系统评估框架

RAG评估方向评估框架及链接描述
生成器基本能力评估RGB
https://arxiv.org/abs/2309.01431
https://github.com/chen700564/RGB
手动构建测试集,评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性
生成器基本能力评估RECALL
https://arxiv.org/pdf/2311.08147
引入手动编辑的反事实上下文到QA和文本生成数据集,评估LLMs的反事实鲁棒性
生成器基本能力评估NoMIRACL
https://arxiv.org/pdf/2312.11361
通过人工判断相关和非相关数据集,评估LLMs对检索错误的鲁棒性
生成器基本能力评估https://arxiv.org/pdf/2404.10198通过引入不同水平的扰动来量化LLMs的忠实度与内部先验间的平衡
生成器基本能力评估FAAF
https://arxiv.org/pdf/2403.03888
提出细粒度的事实验证方法,用于评估生成器的真实性
RAG系统端到端评估TruLens
https://www.trulens.org/trulens_eval/core_concepts_rag_triad/
引入RAG三元组概念,评估上下文相关性、基础性和答案相关性
RAG系统端到端评估RAGAS
https://arxiv.org/pdf/2309.15217 和 ARES
https://arxiv.org/pdf/2311.09476
跟随RAG三元组概念,在不同数据集上优化分数预测方法
RAG系统端到端评估CRUD-RAG
https://arxiv.org/pdf/2401.17043
涉及CRUD操作,开发特定的RAG系统数据集和评估标准
其他端到端评估Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7001–7025进行人类评估,考察生成搜索引擎的流畅性、感知效用和可验证性
其他端到端评估MEDRAG
https://arxiv.org/pdf/2402.13178
构建医学RAG基准,用QA准确性评估医学RAG系统
其他端到端评估MultiHop-RAG
https://arxiv.org/pdf/2401.15391
从新闻文章生成多跳查询,评估RAG系统的QA准确性
其他端到端评估CDQA
https://arxiv.org/pdf/2402.19248
提出一种生成动态QA问题的新方法,要求使用最新信息回答

然而,上述评估框架中使用的评估指标要么依赖于人类评估,要么依赖于简单的文本准确性,这使得它们无法应对需要长答案评估的复杂RAG场景。因此,我们没有真正将它们纳入元(meta)评估。下面我们进入本文将要介绍的一种先进的自动评估框架:RAGChecker

RAGChecker 框架核心内容

RAGChecker 是一种先进的自动评估框架,它提供了一套全面的指标和工具,用于深入分析 RAG 性能。它的功能主要有:

实验设计

  1. 数据集准备:RAGChecker使用一个包含4162个查询的基准数据集,涵盖10个领域(Wikipedia、AI Science、Novel、Biomedical、Finance、Lifestyle、Recreation、Science、Technology和Writing)。数据集是从公共数据集中重新整理而来的,短答案被转换为长答案以匹配当前的RAG系统。
  2. 基线RAG系统:实验应用RAGChecker于8个定制的RAG系统,这些系统结合了2个检索器和4个生成器。检索器选择BM25和E5-Mistral,生成器选择GPT-4、Mixtral-8x7B、Llama3-8B和Llama3-70B。
  3. 元(meta)评估:为了验证RAGChecker的有效性,进行了元(meta)评估,比较了RAGChecker与现有的基线RAG评估框架(如TruLens、RAGAS和ARES)。元(meta)评估数据集由8个基线RAG系统生成的响应组成,每个实例是两个基线RAG系统给出的响应对。

结果分析

  1. 元(meta)评估结果:RAGChecker在正确性、完整性和整体评估方面与人类偏好有最强的相关性。具体结果如下:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5