有两种方法评估RAG:独立评估和端到端
1.独立评估
独立评估就是对检索模块和生成模型分布评估。
1)检索模块
评估RAG检索模块性能的指标主要用于衡量系统(如搜索引擎、推荐系统或信息检索系统),即根据查询评估有效性。
具体指标包括:命中率 (Hit Rate)、平均排名倒数 (MRR)、归一化折扣累积增益 (NDCG)、精确度 (Precision) 等。这块跟推荐系统的评价指标相同。
检索结果中用户实际检索的实体词或者关键词所占的比例。
是用来衡量返回结果的排名质量。MRR考虑了用户第一次遇到相关检索的排名;
结果列表中,第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和,再求平均。
计算方法
对于每个查询,首先计算倒数排名(即第一个相关检索的排名的倒数),如果没有相关检索结果,则倒数排名为0。然后,计算所有查询的倒数排名的平均值。

NDCG用于衡量排名质量。它考虑了所有相关结果的排名,并根据排名对其赋予不同的权重(排名越靠前,权重越大)。
计算方法
首先计算DCG(Discounted Cumulative Gain),然后将其标准化。

2)端到端评估
RAG 对特定输入生成的最终响应进行评估,主要是模型生成的答案与输入查询的相关性和一致性。
准确率比较简单,主要具体讲一下精准匹配 (EM)。
精确匹配是指模型给出的答案与参考答案完全一致时的评价指标。
如果模型的答案与参考答案完全相同,则EM得分为1;否则为0。
计算公式:
EM = 1,如果答案与参考答案完全一致;
EM = 0,如果答案与参考答案不一致。