链载Ai

标题: RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象


Retrieval-Augmented Generation (RAG) 系统依然是当前很热门的话题,虽然当前RAG技术有了很大的进步,有很多专业的框架(RAG(Retrieval Augmented Generation)及衍生框架:CRAG、Self-RAG与HyDe的深入探讨),也有很多创新的思路Retrieval-Augmented Generation (RAG 检索增强生成) 创新切块策略。但是检索出来的结果依然会有很多不相关、或者错误的信息从而导致大模型幻觉,所以对RAG的结果进行评测就极为重要。早期的评测主要还是停留在gpt评判或者人为评判(大模型检索增强RAG评测),今天我们再次对RAG评测进行探讨,分析当前主流的幻觉检测方法,希望对大家有所帮助。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";color: rgb(5, 7, 59);font-weight: 600;font-size: 20px;border-width: initial;border-style: none;border-color: initial;line-height: 1.7;letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">一、RAG系统概述

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">RAG系统结合了检索和生成两种技术,旨在通过从特定知识数据库中检索相关信息,再将这些信息输入到大型语言模型(LLM)中,以生成准确的回答(RAG(检索增强生成)新探索:IdentityRAG 提高 RAG 准确性)。这种方法充分利用了LLM的强大生成能力和检索系统的信息提取能力,使得RAG系统能够在各种应用场景中展现出强大的潜力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">然而,RAG系统并非完美无缺。由于LLM本身存在的不稳定性和幻觉现象,即使检索到的信息是准确的,RAG系统也可能生成错误的回答。这种幻觉现象不仅影响了RAG系统的准确性,还降低了用户的信任度。因此,如何有效检测并减少幻觉现象,成为了RAG评测的重要课题。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">幻觉和错误的产生

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">LLM 在回答其训练数据中支持不足的问题时,可能会产生错误答案,即幻觉。RAG 系统通过赋予 LLM 从特定知识库中检索上下文和信息的能力来缓解这一问题,但幻觉和逻辑错误仍然存在。例如,Air Canada 的 RAG 聊天机器人在退款政策上产生幻觉,导致输掉官司。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">

幻觉原因分析


1、LLM 自身的脆弱性

即使检索到的上下文包含正确答案,LLM 也可能无法生成准确的响应,尤其是在需要对上下文内不同事实进行推理来合成答案时。


2、检索上下文的不足

由于搜索不理想、文档分块 / 格式化不佳或知识库中缺乏相关信息,检索到的上下文可能不包含准确回答问题所需的信息,导致 LLM 产生幻觉。


二、幻觉检测方法

1、Self-evaluation(Self-eval)

self-eval这是一种简单直观的方法,通过让LLM对自己的回答进行打分,来判断回答的准确性。为了提高评估的准确性,研究者们还引入了COT(Chain-of-Thought)提示,要求LLM在打分前提供详细的推理过程。

示例提示模板

Question:{question}Answer:{response}EvaluatehowconfidentyouarethatthegivenAnswerisagoodandaccurateresponsetotheQuestion.PleaseassignaScoreusingthefollowing5-pointscale:1:YouarenotconfidentthattheAnsweraddressestheQuestionatall,theAnswermaybeentirelyoff-topicorirrelevanttotheQuestion.2:YouhavelowconfidencethattheAnsweraddressestheQuestion,therearedoubtsanduncertaintiesabouttheaccuracyoftheAnswer.3:YouhavemoderateconfidencethattheAnsweraddressestheQuestion,theAnswerseemsreasonablyaccurateandon-topic,butwithroomforimprovement.4:YouhavehighconfidencethattheAnsweraddressestheQuestion,theAnswerprovidesaccurateinformationthataddressesmostoftheQuestion.5:YouareextremelyconfidentthattheAnsweraddressestheQuestion,theAnswerishighlyaccurate,relevant,andeffectivelyaddressestheQuestioninitsentirety.Theoutputshouldstrictlyusethefollowingtemplate:Explanation:[provideabriefreasoningyouusedtoderivetheratingScore]andthenwrite‘Score:<rating>’onthelastline.


2、G-Eval

g-eval来自 DeepEval 包,使用 CoT 自动开发多步标准来评估给定响应的质量。在相关论文中发现该技术与多个基准数据集上的人类判断相关。这里根据响应的事实正确性来评估质量。


3、Hallucination Metric

来自 DeepEval 包,估计幻觉的可能性,即 LLM 响应与上下文矛盾 / 不一致的程度,由另一个 LLM 评估。


4、RAGAS

ragas是一个 RAG 特定的、由 LLM 驱动的评估套件,提供多种分数用于检测幻觉。考虑以下分数:

Faithfulness:答案中来源于提供的上下文的比例。

Answer Relevancy:向量表示与原始问题的平均余弦相似度,以及从答案中生成的三个 LLM 问题的向量表示。

Context Utilization:LLM 响应中对上下文依赖的程度。


5、Trustworthy Language Model (TLM)

tlm是一种模型不确定性估计技术,通过自我反思、多个采样响应的一致性和概率措施来评估 LLM 响应的可信度,识别错误、矛盾和幻觉。


三、评测方法与数据集

1、数据集

使用 4 个公共的 Context - Question - Answer 数据集,包括 PubMedQA(生物医学问答数据集)、DROP(基于维基百科文章的高级问答数据集)、COVID - QA(基于 COVID - 19 相关科学文章的问答数据集)和 FinanceBench(包含公共财务报表和上市公司信息的数据集)。


2、评测指标

对于每个数据集,使用接收者操作特征曲线下面积(AUROC)以及精确率 / 召回率来评估幻觉检测方法。每个检测方法接收 {用户查询、检索到的上下文、LLM 响应} 并返回 0 - 1 之间的分数,表示幻觉的可能性。根据 AUROC 来评估,即从 LLM 回答错误的子集中抽取的示例的分数低于从 LLM 回答正确的子集中抽取的示例的分数的概率。


四、评测结果

1、PubMedQA 数据集

TLM 是辨别幻觉最有效的方法,其次是 Hallucination Metric、Self - Evaluation 和 RAGAS Faithfulness。在后面三种方法中,RAGAS Faithfulness 和 Hallucination Metric 在高精度捕捉错误答案方面更有效(RAGAS Faithfulness 平均精确率为 0.762,Hallucination Metric 平均精确率为 0.761,Self - Evaluation 平均精确率为 0.702)。


2、DROP 数据集

由于问题所需推理的复杂性,大多数方法在检测该数据集中的幻觉时面临挑战。TLM 是最有效的方法,其次是 Self - Evaluation 和 RAGAS Faithfulness。


3、COVID - QA 数据集

TLM 和 RAGAS Faithfulness 在检测幻觉方面表现出色。Self - Evaluation 也表现良好,但其他方法,包括 RAGAS Answer Relevancy、G - Eval 和 Hallucination Metric,结果不一。


4、FinanceBench 数据集

TLM 在识别幻觉方面最有效,其次是 Self - Evaluation。大多数其他方法在提供比随机猜测更显著的改进方面存在困难,突出了该数据集包含大量上下文和数值数据的挑战。


五、分析及一些思考

1、各方法性能分析

TLM:表现出色,通过自我反思、一致性和概率措施的结合,在识别幻觉方面显示出强大的能力。

Self - Evaluation:在检测幻觉方面表现出一致的有效性,在 LLM 自我评估能够准确衡量的较简单上下文中特别有效。

RAGAS Faithfulness:在响应准确性与检索上下文密切相关的数据集(如 PubMedQA 和 COVID - QA)中表现出强大的性能,在识别答案中的声明是否得到上下文支持方面特别有效,但有效性因问题的复杂性而异。默认使用的 LLM 配置产生的结果不如使用 gpt - 4o - mini 的结果好,且由于句子解析逻辑在某些示例上无法运行,通过在未以标点结尾的答案后添加句号解决了该问题。

其他方法:G - Eval 和 Hallucination Metric 等方法结果不一,在不同基准上表现不同,需要进一步改进和适应。


2、一些思考

混合方法:对于高风险应用,可以结合多种方法,如 TLM、RAGAS Faithfulness 和 Self - Evaluation,以获得更好的结果。

针对性改进:未来工作可以探索混合方法,并针对特定用例进行有针对性的改进,特别是一些对准确性要求很高的场景,比如医药、金融等,以更好地进行幻觉检测,提高 RAG 系统的可靠性和响应的准确性与可信度。



通过在多个数据集上的实验,我们发现 TLM、RAGAS Faithfulness 和 Self - Evaluation 是相对较为可靠的方法。这些方法在不同数据集上各有优劣,未来研究可以通过混合方法和针对性改进来进一步提高 RAG 系统中幻觉检测的效果,从而提高 RAG 系统的整体性能和可靠性,为用户提供更准确和可信的回答。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5