大语言模型的“幻觉”问题是其走向可信应用的关键障碍。思维链作为一种流行的幻觉缓解技术,通过引导模型进行分步推理来提升回答的可靠性。然而,思维链对幻觉检测机制的影响仍是一个未被充分探索的领域。我们通过一系列系统的实证评估,发现思维链在提升模型表现的同时,也带来了意想不到的负面效应:它会模糊和掩盖用于识别幻觉的关键信号,从而削弱了幻觉检测方法的有效性。研究揭示了在应用思维链时一个被忽视的性能与可检测性之间的权衡,并指出当前幻觉检测技术在面对广泛应用的思维链提示方法和推理增强型大模型时的局限性,为未来构建更可靠的人工智能安全体系提供了参考。
论文标题:
Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation
论文地址:
https://aclanthology.org/2025.findings-emnlp.67
大语言模型(Large language models, LLMs)在众多自然语言处理任务中取得了瞩目的成就,但其“幻觉”(Hallucination)问题——即生成事实错误或与提问无关的内容——始终是阻碍其在关键领域应用的核心挑战。为了缓解幻觉,研究者们提出了多种方法,其中,思维链(Chain-of-Thought, CoT)因其无需额外训练、简单高效的特点而备受青睐。它通过提示词引导模型生成中间推理步骤,从而提升最终答案的可靠性。
然而,我们观察到一个现象:当模型被引导进行逐步推理时,其输出的语义结构和置信度表达方式均发生了改变。如下图所示,对于一个错误回答,在没有 CoT 时,幻觉检测方法能给出较高的幻觉分数。但在引入 CoT 后,尽管模型仍输出同样的错误答案,检测方法给出的幻觉分数却显著降低,这表明 CoT 产生的推理过程可能干扰了检测机制。这一现象引出了我们的核心研究问题:CoT 对幻觉检测的有效性是否存在普遍性的负面影响?
思维链提示干扰幻觉检测的示例:当输入“地球何时最接近太阳?”时,大模型在无思维链提示下生成幻觉回答“夏季”,此时幻觉检测方法给出高分。但加入思维链提示后,模型虽仍输出相同错误答案,检测分数却降至中等水平。
为探究 CoT 如何影响模型的内部决策过程,我们进行了一项初步实验。我们选取了 CommonsenseQA、ARC-Challenge 及 MMLU 三个多项选择问答(Multiple-Choice Question Answering, MCQA)数据集,分析 CoT 对模型输出答案的词元概率分布(Token Probability Distribution)的影响。
实验结果表明,CoT 的引入带来了两个显著变化。首先,它一致性地提升了所有被测模型的任务准确率。其次,模型的输出熵(Entropy)普遍降低,这代表模型对所选答案的概率分配更为集中,即置信度更高。
更关键的发现体现在模型犯错的情况下。如下图所示,在没有 CoT 时,模型对错误答案分配的概率(左下)明显偏低。但在引入 CoT 后,即使是错误的答案,模型也倾向于分配极高的概率(右下),其概率分布形态与正确答案的分布(右上)变得难以区分。
CoT 前后模型输出答案的概率分布对比(以 DeepSeek-R1-Distill-Llama-8B 为例)。引入 CoT 后,模型对错误答案也表现出高置信度。
这一观察证实了我们的初步假设:CoT 在引导模型进行推理时,会系统性地提升其输出的置信度,这种置信度的提升同样发生在模型产生幻觉时。这使得基于输出概率的简单检测方法更难区分事实与幻觉,并促使我们进行更全面的系统性评估。
基于初步探索的发现,我们设计了一套更全面的评估流程,以系统性地考察 CoT 对幻觉检测方法的影响。
我们的评估实验覆盖了多款代表性的开源模型(如 LLaMA-3.1-Instruct, Mistral-Instruct, DeepSeek-R1-Distill-Llama),并在事实问答(TriviaQA, TruthfulQA 等)和文本摘要(CNN/Daily Mail)等多种任务上进行。我们采用了包括零样本 CoT(Zero-shot CoT)在内的三种 CoT 策略。
在检测方法上,我们选取了不依赖外部知识库、无需额外训练的代表性方法,涵盖了基于一致性(如SelfCheckGPT-NLI)、内部状态(如 Perplexity, LLM-Check)、自评估(如 Verbalized Certainty)和混合方法(如 INSIDE)等多种方式。我们从多个维度进行评估:幻觉分数的分布变化、分类性能(Area under the Receiver Operating Characteristic Curve, AUROC)的变化,以及检测器置信度校准误差(Expected Calibration Error, ECE)的变化。
通过对 768 组实验配置的全面分析,我们得出了清晰的结论。
我们的核心发现是,CoT 的引入对幻觉检测性能造成了广泛的负面影响。在总共 768 个实验配置中,超过一半(465 个)的场景下,幻觉检测方法的分类性能(以 AUROC 衡量)出现了下降。
应用CoT后,在不同模型和数据集上幻觉检测 AUROC 下降的实验配置数量。(单元格最大值为 12)
不同类型的检测方法受影响程度存在差异。依赖模型输出置信度信号的自评估方法(如 Verbalized Certainty)受影响最大,因为 CoT 生成的推理步骤本身就带有强烈的辩护和论证语气,极易产生高置信度的错觉。相比之下,利用多次采样不一致性的一致性方法(如 SelfCheckGPT-NLI)则表现出更强的鲁棒性。
一个值得注意的现象是,先进检测方法相对于简单困惑度基线的优势在 CoT 场景下被显著削弱。这表明当前检测技术的设计并未充分考虑到 CoT 引发的深层语义和结构变化,导致其在推理增强的场景下效能降低。
为探究其内在机制,我们分析了模型内部状态的变化。我们发现,CoT 的引入导致用于区分事实与幻觉的内部信号边界变得模糊。
幻觉回答在CoT前后的内部状态分数分布图。引入CoT后,幻觉回答的检测分数显著向“非幻觉”区域偏移。
在 CoT 的影响下,即便是错误的回答,其内部状态分数(如 Hidden Score)的分布也向正常回答靠拢,两者之间的可区分性降低。这直接导致了依赖这些内部信号的检测器性能下降。同时,我们也观察到检测器的 ECE 普遍上升,表明检测器不仅更容易出错,对其自身判断的可靠性评估也变得不准。
本研究系统性地评估了思维链提示工程对大语言模型幻觉检测的影响,并揭示了两者间存在的负面协同效应。尽管 CoT 能有效提升模型性能、减少幻觉的发生频率,但它同时通过改变模型的内部状态和置信度表达方式,模糊了区分事实与幻觉的关键信号,从而削弱了现有主流检测方法的有效性。
这一发现指出了模型性能提升与幻觉可检测性之间一个被忽视的权衡。它提醒我们,在发展更强推理能力模型的同时,需要同步开发能够适应这些新特性的检测技术。未来的幻觉检测研究需要超越对最终答案的表面分析,深入审视模型的推理过程本身,以构建在推理增强时代下依然可靠、稳健的人工智能安全体系。