链载Ai

标题: Rageval:评估检索增强生成(RAG)方法的工具 [打印本页]

作者: 链载Ai    时间: 昨天 09:30
标题: Rageval:评估检索增强生成(RAG)方法的工具

项目简介


Rageval 是一个帮助您评估 RAG 系统的工具。评估由六个子任务组成,包括查询重写、文档排名、信息压缩、证据验证、答案生成和结果验证。


任务和指标的定义

1. 生成任务

生成任务是根据 RAG 中检索模块提供的上下文来回答问题。通常,上下文可以从压缩器中提取/生成文本片段,或者从重新排名器中提取/生成相关文档。在这里,我们将生成任务中使用的指标分为两类,即答案正确性和答案扎根性。

(1)答案正确性:这类指标是通过将生成的答案与真实答案进行比较来评估正确性。以下是一些常用的指标:


(2)答案扎根性:这类指标是通过将生成的答案与提供的上下文进行比较来评估扎根性(也称为事实一致性)。以下是一些常用的指标:


2. 重写任务

重写任务是将用户问题重新表述为一组查询,使它们对 RAG 中的搜索模块更友好。

3. 搜索任务

搜索任务是从知识库中检索相关文档。

(1) 上下文充分性:这类指标是通过将检索到的文档与真实上下文进行比较来评估充分性。以下是一些常用的指标:

(2)上下文相关性:这类指标是通过将检索到的文档与真实答案进行比较来评估相关性。以下是一些常用的指标:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5