链载Ai

标题: 多模态RAG:解读检索、重排、精炼三大关键技术 [打印本页]

作者: 链载Ai    时间: 昨天 13:12
标题: 多模态RAG:解读检索、重排、精炼三大关键技术


四、多模态检索

多模态检索的三个关键组件包括:检索器(retriever)、重排序器(reranker)和精炼器(refiner)。

4.1 检索器(retriever)

可分为单/双流结构和生成式结构,每种结构都涉及单模态(例如,文本、图像)和跨模态信息检索。

4.1.1 单/双流检索

单模态检索,主要以文本检索为主:
跨模态检索:

4.1.2 生成式检索(GR)

GR主要由两个基本组成部分组成:模型训练和文档标识符(DocID)。

文本模态检索
跨模态检索

4.2 重排序(ReRank)

主要是对第一阶段检索器检索到的多模态文档列表进行重新排序。

采用相关性评分机制,例如:采用交叉注意力模型,对查询和文档之间的上下文关联交互进行评分。

基于大模型(LLM和MLLM)的重排序方法可以分为两个主要范式:微调作为重排序器和提示作为重排序器。

4.2.1 微调作为重排序器

文本模态的重排序,可以分为三类:仅编码器、编码器-解码器和仅解码器。

4.2.2 提示作为重排序器

文本模型的重新排序,提示策略通常分为三种类型:逐点法、成对法和列表法。

4.3 精炼器(refiner)

无限的输入长度输入MLLM会带来一些实际的困难:

1、有限的上下文窗口:大型语言模型在预训练期间具有固定的输入长度,任何超过此限制的文本都会被截断,导致上下文语义丢失。

2、灾难性遗忘:缓存空间不足会导致大型语言模型在处理长序列时忘记先前学习的知识。

3、推理速度慢。

精炼器是对检索和重新排序后的信息进行优化。

提示改进可以通过两种主要方法实现:硬提示方法和软提示方法。

硬提示精炼器

软提示精炼器


[ColBERT](https://github.com/stanford-futuredata/ColBERT)[ColBERT](https://arxiv.org/pdf/2004.12832)[TeachCLIP](https://github.com/ruc-aimc-lab/TeachCLIP)[TTMR++](https://github.com/seungheondoh/music-text-representation-pp)[GLEN](https://arxiv.org/pdf/2311.03057)[GeMKR](https://arxiv.org/pdf/2502.16641)[TSARankLLM](https://arxiv.org/html/2311.16720v3)[DemoRank](https://arxiv.org/pdf/2406.16332)[PE-Rank](https://arxiv.org/pdf/2406.14848)[RankGPT](https://github.com/sunnweiwei/RankGPT)[PCRL](https://arxiv.org/pdf/2109.04379)[SelfCP](https://arxiv.org/html/2405.17052v1)






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5