作者一句话总结:“不是检索不准,是检索单元太胖,逻辑关系太乱。”
传统 chunk 图 SentGraph 句图
[整段1]——相似——[整段2] [S1]—因果→[S2]—对比→[S3]
↓ 含 6 句废话 ↓ 句句相关
上下文爆炸 推理链清爽
把检索单元从“段”缩到“句”,再把这些句子按真正的逻辑关系画成一张三层图,线下建好,线上直接按图索骥。
图长啥样?
Topic 层——跨文档“桥梁”
↑
Core 句层——核心事实
↑
Sup 句层——背景、因果、举例
例:
文档 A「克罗地亚官方语言为克罗地亚语。」
文档 B「电影《围城》使用克罗地亚语拍摄。」
系统线下就在 Topic 层建一条边:(克罗地亚语, 被用于, 电影《围城》)
Anchor 初选
用 dense retriever 把“问题向量”和所有句子向量比对,先取 Top-K 候选句。
Anchor 精炼
让 LLM 当“裁判”:
路径扩展
从保留的 anchor 出发,沿图中的 N-N、N-S 边做 BFS,把“因果、对比、背景”句子一串一串捞回来,直到凑齐一条完整证据链。
把检索粒度缩到句,再把句子间的“修辞小箭头”画出来,就能让 RAG 在多跳问答里“少废话、多证据、链条不断”。
SentGraph 用 30% 的 token 做到 SOTA,给“图+句子”这一新范式打样。
SentGraph: Hierarchical Sentence GraphforMulti-hop Retrieval-Augmented Question Answering
https://arxiv.org/pdf/2601.03014| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |