碎碎念
|持续学习、持续分享
一句话概括:论文提出的 Passage Injection 方法通过将检索到的段落明确融入大型语言模型的推理过程,在四种事实问答数据集上显著提升了检索增强生成(RAG)系统的整体性能,尤其增强了模型对含噪声段落(包括随机噪声和反事实噪声)的鲁棒性,同时还能有效利用有用段落。
论文标题:"Injecting External Knowledge into the Reasoning Process Enhances Retrieval-Augmented Generation"
作者:"Minghao Tang , Shiyu Ni , Jiafeng Guo , Keping Bi"
会议/期刊:"arXiv"
发表年份:2025
原文链接:"https://arxiv.org/pdf/2507.19333"
关键词:["检索增强生成","段落注入","大语言模型","鲁棒性增强","噪声处理"]
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(250, 81, 81);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">研究背景:当RAG遇上"假新闻"ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">检索增强生成(Retrieval-Augmented Generation, RAG)技术已成为大语言模型(Large Language Models, LLM)处理知识密集型任务的标配。它像一位"勤奋的助理",会先从知识库中检索相关文档,再结合这些信息生成答案。但这个助理有个致命弱点——ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(250, 81, 81);">容易被"假新闻"欺骗。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">想象这样一个场景:当问"杰米·多南是哪个国家的公民?"时,系统检索到的段落错误地称"北爱尔兰是美国的一部分"。传统的Vanilla RAG会毫不犹豫地采信这个错误信息,给出"美国"的答案。而论文提出的ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(250, 81, 81);">段落注入(Passage Injection)方法却能像经验丰富的侦探,从噪声中辨别真相,正确回答"英国"(如图1所示)。论文提出的段落注入(Passage Injection)方法,本质上是给LLM的推理过程加装了一个"信息过滤器"。它不再像Vanilla RAG那样简单地将检索到的段落附加在 prompt 末尾,而是显式地将段落内容整合到推理步骤中,让模型学会辨别哪些信息值得信任,哪些需要忽略。
具体来说,Passage Injection通过以下三个关键步骤实现抗干扰能力:
这种设计就像给学生提供参考资料时,同时教会他们如何辨别文献的可信度,而不是盲目引用。
传统RAG将所有检索到的段落一股脑喂给模型,而Passage Injection会先对段落进行标记和分类。例如在处理"杰米·多南国籍"问题时,系统会将检索到的段落标记为:
模型被明确要求对每个段落的可信度进行评估:
"请分析以下段落与问题的相关性及可信度,对每个段落给出信任分数(1-5分),并说明理由。"
在示例中,模型会识别出段落2存在事实错误,给予低信任分数(2分),而段落1和3获得高分(4-5分)。
最后模型仅基于高可信度段落生成答案,并解释推理过程:
"根据段落1和3,杰米·多南出生于北爱尔兰贝尔法斯特,而北爱尔兰是英国的一部分,因此正确答案是英国。段落2存在事实错误,北爱尔兰并非美国领土,故不予采信。"
Table 1显示,在四个主流问答数据集(2WikiMultihopQA(Bridge/Comparison/Compose/Inference)、HotpotQA、CWQ、PopQA)上,Passage Injection在所有模型规模上均优于Vanilla RAG和Instruction Injection方法:
特别值得注意的是,在Qwen-32B模型上,Passage Injection实现了72.79%(CWQ)和47.40%(2WikiMultihopQA-Inference)的最佳成绩,证明其在复杂推理任务上的优势。
Figure 2展示了在两种噪声设置下的性能对比:
结果显示,随着噪声比例增加,传统方法性能急剧下降,而Passage Injection保持稳定。在高噪声环境(噪声比例60%)下,Passage Injection的F1分数比Vanilla RAG高出15.3%。
即使在仅使用"黄金段落"(经过人工验证的准确信息)的理想条件下,Passage Injection依然表现出色。Figure 3显示,其性能与Vanilla RAG相当,证明该方法不会损害在优质数据上的表现:
Table 2对比了不同方法的输出长度,发现Passage Injection在保持准确性的同时,平均输出长度减少约40%:
这意味着在实际应用中,Passage Injection能节省带宽并加快响应速度,特别适合移动端和低带宽场景。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |