RAG(Retrieval-Augmented Generation)评测：评估LLM中的幻觉现象 - 链载Ai

Retrieval-Augmented Generation (RAG) 系统依然是当前很热门的话题，虽然当前RAG技术有了很大的进步，有很多专业的框架（RAG（Retrieval Augmented Generation）及衍生框架：CRAG、Self-RAG与HyDe的深入探讨），也有很多创新的思路Retrieval-Augmented Generation (RAG 检索增强生成) 创新切块策略。但是检索出来的结果依然会有很多不相关、或者错误的信息从而导致大模型幻觉，所以对RAG的结果进行评测就极为重要。早期的评测主要还是停留在gpt评判或者人为评判（大模型检索增强RAG评测），今天我们再次对RAG评测进行探讨，分析当前主流的幻觉检测方法,希望对大家有所帮助。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";color: rgb(5, 7, 59);font-weight: 600;font-size: 20px;border-width: initial;border-style: none;border-color: initial;line-height: 1.7;letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">一、RAG系统概述

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">RAG系统结合了检索和生成两种技术，旨在通过从特定知识数据库中检索相关信息，再将这些信息输入到大型语言模型（LLM）中，以生成准确的回答（RAG(检索增强生成)新探索：IdentityRAG 提高 RAG 准确性）。这种方法充分利用了LLM的强大生成能力和检索系统的信息提取能力，使得RAG系统能够在各种应用场景中展现出强大的潜力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">然而，RAG系统并非完美无缺。由于LLM本身存在的不稳定性和幻觉现象，即使检索到的信息是准确的，RAG系统也可能生成错误的回答。这种幻觉现象不仅影响了RAG系统的准确性，还降低了用户的信任度。因此，如何有效检测并减少幻觉现象，成为了RAG评测的重要课题。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", "Source Han Sans CN", sans-serif, "Apple Color Emoji", "Segoe UI Emoji";font-size: 15px;line-height: 1.7;color: rgb(5, 7, 59);letter-spacing: normal;text-align: start;text-wrap: wrap;background-color: rgb(253, 253, 254);">LLM 在回答其训练数据中支持不足的问题时，可能会产生错误答案，即幻觉。RAG 系统通过赋予 LLM 从特定知识库中检索上下文和信息的能力来缓解这一问题，但幻觉和逻辑错误仍然存在。例如，Air Canada 的 RAG 聊天机器人在退款政策上产生幻觉，导致输掉官司。

即使检索到的上下文包含正确答案，LLM 也可能无法生成准确的响应，尤其是在需要对上下文内不同事实进行推理来合成答案时。

由于搜索不理想、文档分块 / 格式化不佳或知识库中缺乏相关信息，检索到的上下文可能不包含准确回答问题所需的信息，导致 LLM 产生幻觉。

self-eval这是一种简单直观的方法，通过让LLM对自己的回答进行打分，来判断回答的准确性。为了提高评估的准确性，研究者们还引入了COT（Chain-of-Thought）提示，要求LLM在打分前提供详细的推理过程。

Question:{question}Answer:{response}EvaluatehowconfidentyouarethatthegivenAnswerisagoodandaccurateresponsetotheQuestion.PleaseassignaScoreusingthefollowing5-pointscale:1:YouarenotconfidentthattheAnsweraddressestheQuestionatall,theAnswermaybeentirelyoff-topicorirrelevanttotheQuestion.2:YouhavelowconfidencethattheAnsweraddressestheQuestion,therearedoubtsanduncertaintiesabouttheaccuracyoftheAnswer.3:YouhavemoderateconfidencethattheAnsweraddressestheQuestion,theAnswerseemsreasonablyaccurateandon-topic,butwithroomforimprovement.4:YouhavehighconfidencethattheAnsweraddressestheQuestion,theAnswerprovidesaccurateinformationthataddressesmostoftheQuestion.5:YouareextremelyconfidentthattheAnsweraddressestheQuestion,theAnswerishighlyaccurate,relevant,andeffectivelyaddressestheQuestioninitsentirety.Theoutputshouldstrictlyusethefollowingtemplate:Explanation:[provideabriefreasoningyouusedtoderivetheratingScore]andthenwrite‘Score:<rating>’onthelastline.

g-eval来自 DeepEval 包，使用 CoT 自动开发多步标准来评估给定响应的质量。在相关论文中发现该技术与多个基准数据集上的人类判断相关。这里根据响应的事实正确性来评估质量。

来自 DeepEval 包，估计幻觉的可能性，即 LLM 响应与上下文矛盾 / 不一致的程度，由另一个 LLM 评估。

ragas是一个 RAG 特定的、由 LLM 驱动的评估套件，提供多种分数用于检测幻觉。考虑以下分数：

Answer Relevancy：向量表示与原始问题的平均余弦相似度，以及从答案中生成的三个 LLM 问题的向量表示。

tlm是一种模型不确定性估计技术，通过自我反思、多个采样响应的一致性和概率措施来评估 LLM 响应的可信度，识别错误、矛盾和幻觉。

使用 4 个公共的 Context - Question - Answer 数据集，包括 PubMedQA（生物医学问答数据集）、DROP（基于维基百科文章的高级问答数据集）、COVID - QA（基于 COVID - 19 相关科学文章的问答数据集）和 FinanceBench（包含公共财务报表和上市公司信息的数据集）。

对于每个数据集，使用接收者操作特征曲线下面积（AUROC）以及精确率 / 召回率来评估幻觉检测方法。每个检测方法接收 {用户查询、检索到的上下文、LLM 响应} 并返回 0 - 1 之间的分数，表示幻觉的可能性。根据 AUROC 来评估，即从 LLM 回答错误的子集中抽取的示例的分数低于从 LLM 回答正确的子集中抽取的示例的分数的概率。

TLM 是辨别幻觉最有效的方法，其次是 Hallucination Metric、Self - Evaluation 和 RAGAS Faithfulness。在后面三种方法中，RAGAS Faithfulness 和 Hallucination Metric 在高精度捕捉错误答案方面更有效（RAGAS Faithfulness 平均精确率为 0.762，Hallucination Metric 平均精确率为 0.761，Self - Evaluation 平均精确率为 0.702）。

由于问题所需推理的复杂性，大多数方法在检测该数据集中的幻觉时面临挑战。TLM 是最有效的方法，其次是 Self - Evaluation 和 RAGAS Faithfulness。

TLM 和 RAGAS Faithfulness 在检测幻觉方面表现出色。Self - Evaluation 也表现良好，但其他方法，包括 RAGAS Answer Relevancy、G - Eval 和 Hallucination Metric，结果不一。

TLM 在识别幻觉方面最有效，其次是 Self - Evaluation。大多数其他方法在提供比随机猜测更显著的改进方面存在困难，突出了该数据集包含大量上下文和数值数据的挑战。

TLM：表现出色，通过自我反思、一致性和概率措施的结合，在识别幻觉方面显示出强大的能力。

Self - Evaluation：在检测幻觉方面表现出一致的有效性，在 LLM 自我评估能够准确衡量的较简单上下文中特别有效。

RAGAS Faithfulness：在响应准确性与检索上下文密切相关的数据集（如 PubMedQA 和 COVID - QA）中表现出强大的性能，在识别答案中的声明是否得到上下文支持方面特别有效，但有效性因问题的复杂性而异。默认使用的 LLM 配置产生的结果不如使用 gpt - 4o - mini 的结果好，且由于句子解析逻辑在某些示例上无法运行，通过在未以标点结尾的答案后添加句号解决了该问题。

其他方法：G - Eval 和 Hallucination Metric 等方法结果不一，在不同基准上表现不同，需要进一步改进和适应。

混合方法：对于高风险应用，可以结合多种方法，如 TLM、RAGAS Faithfulness 和 Self - Evaluation，以获得更好的结果。

针对性改进：未来工作可以探索混合方法，并针对特定用例进行有针对性的改进，特别是一些对准确性要求很高的场景，比如医药、金融等，以更好地进行幻觉检测，提高 RAG 系统的可靠性和响应的准确性与可信度。

通过在多个数据集上的实验，我们发现 TLM、RAGAS Faithfulness 和 Self - Evaluation 是相对较为可靠的方法。这些方法在不同数据集上各有优劣，未来研究可以通过混合方法和针对性改进来进一步提高 RAG 系统中幻觉检测的效果，从而提高 RAG 系统的整体性能和可靠性，为用户提供更准确和可信的回答。