大型语言模型(LLMs)在生成文本时可能会产生错误信息,即“幻觉”问题。尽管检索增强的LLMs通过检索外部数据来减少这种幻觉,但现有的方法通常不考虑检索文档与LLMs之间的细粒度结构语义交互,这在处理长文档时尤其影响回答的准确性。
实验使用了3类任务5个数据集,包括生成式问答(Generative QA)、多项选择问答(Multi-choice QA)和对话(Dialogue)任务。
R4模型在公共数据集上的总体结果。T检验表明,R4工作改进在统计上是显著的,p值<0.05。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"/>
基线(Self-RAG、REALM等)也表现出对位置敏感的现象,即开始和结束位置比中间位置更有效。
R4无论关键文档的初始位置如何,都能展现出稳定且强健的输出。这证实了文档的排序和优化在本质上增强了LLMs在RAG系统中处理用户查询的能力的观点。
https://arxiv.org/pdf/2405.02659R4:ReinforcedRetriever-Reorder-ResponderforRetrieval-AugmentedLargeLanguageModelscode:paper录用后会发布
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |