一、LLM 越学越满,RAG 却越搬越重- (a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。
- (b) 把对应维基段落再送进上下文,准确率反而掉 20 分——冗余知识成了"噪声"。
结论:外部 corpus 与模型内部知识高度重叠,继续"全量检索"≈ 白花钱、拖延迟、降效果。 二、30% 维基百科可删,22% 延迟立降,效果不减复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标,用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后,对于模型已"掌握"的问题,其回答将主要依赖模型自身的内部知识。 | 表 1:主实验汇总(Llama3-70B vs Llama3.3-70B) |
|---|
| |
- 在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus,EM 掉点 <2;砍 70% 也才掉 3 分左右。
- 经过 Noise-Tolerant Tuning 后,部分数据集反超市售全库 RAG。
一句话:"零冗余"不是口号,是真能剪、真加速、真不掉点。 三、技术方案Zero-RAG3.1 Mastery-Score —— 给每条句子打"掌握度"- 让同一 LLM 回答这 n 个问题,算 Exact-Match 均值 ⇒ M(s)。
- 训练一个小回归模型预测 M(s),按百分位阈值 τ 直接删掉高分句子(算法见附录 A.1)。
结果:138M 句维基 → prune 30% 后索引体积同比例缩小。 3.2 Query Router ——"会不会"先问模型,别急着搜- 把训练集问题先让 Noise-Tolerant 模型自答,能答对的标 mastered。
- 二分类器学习"是否 mastered",推理时 mastered 问题直接不走检索,减少延迟 + 避免噪声。
消融显示:拿掉 Router 后 EM 显著下降,证明多检索一次反而添乱。 3.3 Noise-Tolerant Tuning —— 万一搜到废文档,也要稳住训练数据三种配方:
统一损失让模型学会忽略无用片段,靠内部知识作答。 经此微调,即使在 prune 后 corpus 里偶尔捞出无关句,模型也能"视而不见"。 四、一图带走:Zero-RAG 到底剪了什么?❝句子:"Queen Victoria became Empress of India in 1876." 生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒直接剪除。 这些"教科书级别"的常识,就是 Zero-RAG 眼中该被"零冗余"的靶子。 Zero-RAG: Towards Retrieval-Augmented Generation with Zero Redundant Knowledge https://arxiv.org/pdf/2511.00505
|