AAAI-26 | Cog-RAG：用双超图，重构RAG的认知流程

显示全部楼层

Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation 
西交、清华、西电联合团队
https://arxiv.org/pdf/2511.13201

一、当 RAG 陷入“实体孤岛”

Retrieval-Augmented Generation（RAG）已经成为大模型落地垂直领域的“标配外挂”——把私域文档切成 chunk，做向量索引，回答时召回最相似的片段喂给 LLM，简单粗暴却有效。
但扁平的向量相似度检索天生有两个缺陷：

近两年，GraphRAG、LightRAG 等工作把实体级知识图谱搬进 RAG，用“边”把实体串起来，一定程度上缓解了割裂问题。
然而，图谱仍然只关注“成对关系”，对于“多个实体共同构成一个事件/主题”的高阶依赖束手无策，如图 1(a)(b) 所示。

Cog-RAG 的核心思想一句话概括：先找主题，再找细节，像人一样先快速浏览目录把握主旨，再定位到关键段落精读。
为此，作者设计了两张互补的超图 + 两阶段检索，见图 2。

超图类型	粒度	超边含义	作用
Theme Hypergraph	跨 chunk	一条超边 = 一个主题（narrative outline）（由 LLM 自动摘要生成）	提供全局语义锚点，解决“主题漂移”
Entity Hypergraph	chunk 内	一条超边 = 多个实体的高阶关联（事件、因果、共现等）	提供局部细节证据，支持多跳推理

阶段	输入	操作	输出
Stage-1 主题驱动	用户 query	用主题关键词匹配主题超边 → 扩散邻居顶点	主题子图 + 初始主题答案 A_theme
Stage-2 细节回溯	A_theme+ 实体关键词	在实体超图里召回与主题对齐的实体顶点 → 扩散高阶超边	实体子图 + 最终答案 A

评测指标

❝
表1 节选：Cog-RAG 在 Mix 数据集上总体胜率 84.5%，领先第二名 Hyper-RAG **37.7%**。

跨 LLM 稳健性：在 GPT-4o、Qwen-Plus、GLM-4-Air、DeepSeek-V3、LLaMA-3.3-70B 上均保持≥10% 绝对胜率提升。
医学密集领域最亮眼：Neurology 数据集比 Hyper-RAG 提升 **21.0%**，Pathology 提升 **26.4%**。

❝
表2 Score-based 消融：实体超图在跨域稀疏场景最敏感；主题超图在域内稠密场景贡献更大。