比RAG提升27.4%，阿里等ComRAG利用“质心式”记忆机制实现实时社区问答

显示全部楼层

社区问答（CQA）平台（如 Stack Overflow、AskUbuntu）沉淀了大量高质量知识，但在工业界落地时仍面临三大挑战：

现有方法要么只检索社区历史，要么只用静态文档，缺少“动态反思 + 高效存储”的机制。ComRAG 正是为了解决这些痛点而生。

ComRAG 框架概览

*图 1：ComRAG 实时社区问答（CQA）架构。系统整合了一个静态知识向量库和两个动态 CQA 向量库（高质量与低质量），后者通过基于质心的记忆机制进行管理。

核心思想一句话：“既要官方文档的权威，也要社区历史的经验，还要随时间动态遗忘低质量内容”。

为了处理“质量不一致 + 存储无限膨胀”两个问题，作者提出双库 + 质心记忆机制：

组件	作用	更新逻辑
High-Quality Store	存放高质量 QA（得分 ≥ γ）	用质心聚类 + 替换低分旧 QA
Low-Quality Store	存放低质量 QA（得分 < γ）	同样聚类，但仅作为“反面教材”提示 LLM 不要重蹈覆辙

图 4：利用质心聚类控制存储增长，ProCQA 上 10 轮迭代后 chunk 增长率从 20.23% 降到 2.06%

收到新问题 q 时，ComRAG 按相似度阈值 τ, δ 走三条路径之一：

数据集	领域	KB 片段数	初始 QA 对	测试问题
MSQA	Microsoft 技术	557 k	9 518	571
ProCQA	Lisp 编程	14 k	3 107	346
PolarDBQA	PolarDB 数据库	1.4 k	1 395	153

指标：

表 1：三大数据集上 ComRAG 均显著优于所有基线

图 2：PolarDBQA 上移除任一模组都会显著降低 BERT-Score 或增加延迟

“ComRAG 的核心价值不在于模型本身，而在于用质心记忆机制把‘时间’和‘质量’显式建模进了检索-生成流程。”

https://arxiv.org/abs/2506.21098ComRAG:Retrieval-AugmentedGenerationwithDynamicVectorStoresforReal-timeCommunityQuestionAnsweringinIndustry