返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Zero-RAG,对冗余知识说“不”

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

一、LLM 越学越满,RAG 却越搬越重

图 1:知识冗余示意图
  • (a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。
  • (b) 把对应维基段落再送进上下文,准确率反而掉 20 分——冗余知识成了"噪声"。

结论:外部 corpus 与模型内部知识高度重叠,继续"全量检索"≈ 白花钱、拖延迟、降效果。

二、30% 维基百科可删,22% 延迟立降,效果不减

复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标,用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后,对于模型已"掌握"的问题,其回答将主要依赖模型自身的内部知识。

表 1:主实验汇总(Llama3-70B vs Llama3.3-70B)

  • 在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus,EM 掉点 <2;砍 70% 也才掉 3 分左右。
  • 检索延迟平均降低22%(表 4)。
  • 经过 Noise-Tolerant Tuning 后,部分数据集反超市售全库 RAG

一句话:"零冗余"不是口号,是真能剪、真加速、真不掉点。

三、技术方案Zero-RAG

图 4:Zero-RAG 四阶段流水线

3.1 Mastery-Score —— 给每条句子打"掌握度"

图 3:Mastery-Score 计算流程
  1. 用 LLM 对句子 s 生成 n 组 QA。
  2. 让同一 LLM 回答这 n 个问题,算 Exact-Match 均值 ⇒ M(s)。
  3. 训练一个小回归模型预测 M(s),按百分位阈值 τ 直接删掉高分句子(算法见附录 A.1)。

结果:138M 句维基 → prune 30% 后索引体积同比例缩小。

3.2 Query Router ——"会不会"先问模型,别急着搜

表 3:消融实验
  • 把训练集问题先让 Noise-Tolerant 模型自答,能答对的标 mastered。
  • 二分类器学习"是否 mastered",推理时 mastered 问题直接不走检索,减少延迟 + 避免噪声。

消融显示:拿掉 Router 后 EM 显著下降,证明多检索一次反而添乱

3.3 Noise-Tolerant Tuning —— 万一搜到废文档,也要稳住

训练数据三种配方:

  1. 只给问题 → 答案(无 RAG)
  2. 问题 + 相关文档 → 答案
  3. 问题 + 随机噪声文档 → 答案

统一损失让模型学会忽略无用片段,靠内部知识作答。
经此微调,即使在 prune 后 corpus 里偶尔捞出无关句,模型也能"视而不见"。

四、一图带走:Zero-RAG 到底剪了什么?

表 6:案例研究

句子:"Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒直接剪除

这些"教科书级别"的常识,就是 Zero-RAG 眼中该被"零冗余"的靶子。

Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ