链载Ai

标题: Zero-RAG,对冗余知识说“不” [打印本页]

作者: 链载Ai    时间: 昨天 22:34
标题: Zero-RAG,对冗余知识说“不”

一、LLM 越学越满,RAG 却越搬越重

图 1:知识冗余示意图

结论:外部 corpus 与模型内部知识高度重叠,继续"全量检索"≈ 白花钱、拖延迟、降效果。

二、30% 维基百科可删,22% 延迟立降,效果不减

复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标,用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后,对于模型已"掌握"的问题,其回答将主要依赖模型自身的内部知识。

表 1:主实验汇总(Llama3-70B vs Llama3.3-70B)

一句话:"零冗余"不是口号,是真能剪、真加速、真不掉点。

三、技术方案Zero-RAG

图 4:Zero-RAG 四阶段流水线

3.1 Mastery-Score —— 给每条句子打"掌握度"

图 3:Mastery-Score 计算流程
  1. 用 LLM 对句子 s 生成 n 组 QA。
  2. 让同一 LLM 回答这 n 个问题,算 Exact-Match 均值 ⇒ M(s)。
  3. 训练一个小回归模型预测 M(s),按百分位阈值 τ 直接删掉高分句子(算法见附录 A.1)。

结果:138M 句维基 → prune 30% 后索引体积同比例缩小。

3.2 Query Router ——"会不会"先问模型,别急着搜

表 3:消融实验

消融显示:拿掉 Router 后 EM 显著下降,证明多检索一次反而添乱

3.3 Noise-Tolerant Tuning —— 万一搜到废文档,也要稳住

训练数据三种配方:

  1. 只给问题 → 答案(无 RAG)
  2. 问题 + 相关文档 → 答案
  3. 问题 + 随机噪声文档 → 答案

统一损失让模型学会忽略无用片段,靠内部知识作答。
经此微调,即使在 prune 后 corpus 里偶尔捞出无关句,模型也能"视而不见"。

四、一图带走:Zero-RAG 到底剪了什么?

表 6:案例研究

句子:"Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒直接剪除

这些"教科书级别"的常识,就是 Zero-RAG 眼中该被"零冗余"的靶子。

Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5