统一多模态Embedding, 通义实验室开源GME系列模型

显示全部楼层

01

背景

随着多媒体应用的迅猛发展，用户产生的数据类型日益多样化，不再局限于文本，还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态，如仅对文本或图像进行分析和搜索。然而，实际应用中，用户的查询往往涉及多种模态的信息。例如，用户可能上传一张图片并附上一段文字说明，期望找到类似的多模态内容。

当前，多模态检索主要依赖于Embedding模型，如文本领域的BGE、GTE、E5，以及跨模态的CLIP模型。这些模型在单模态和跨模态相关性建模方面表现出色，但在复杂场景和组合搜索需求下，往往需要部署多个独立模型，或通过OCR和生成模型将视觉素材转换为文本，再进行检索。这不仅增加了系统的复杂度，还可能导致信息丢失。

02

GME统一多模态表征

为解决上述问题，通义实验室推出了GME（General MultiModal Embedding）统一多模态表征模型。GME将各种模态的数据整合到一个共享的语义空间中，使不同模态的数据能够直接比对和检索，显著提升了信息检索的效率和精准度。

GME

图1 不同模态数据高维空间统一表征示意图

GME基于Qwen2-VL多模态大语言模型构建，采用对比学习的方法进行训练。每个训练样本包含一个查询、一个相关候选项及多组无关候选项，覆盖文本、图像及图文组合等多种数据类型。通过指令调优，GME能够适应不同的检索任务，比如视觉问答（VQA）等，进一步增强了模型的表征能力。

在训练数据方面，GME不仅利用了丰富的单模态和跨模态数据，还通过大模型生成技术，合成了海量的混合模态相关性数据。这种数据增强策略确保了GME在各种检索场景下的优异表现。

图2 基于MLLM的多模态Embedding模型架构

统一多模态检索评测 (UMRB)

为系统评估模型在多种模态检索场景下的表现，GME作者团队构建了一个统一多模态检索评测数据集，命名为“通用多模态检索基准”（Universal Multimodal Retrieval Benchmark，UMRB）。该Benchmark包含47个评测子集，覆盖广泛的多模态检索任务。这些子集主要来源于之前针对不同子场景或子任务构建的专用数据集。UMRB包括以下几类数据：

1、BEIR评测集[5]：用于文本到文本的检索场景。

2、M-BEIR数据集：聚焦于视觉相关的检索场景。

3、混合模态数据集：涵盖M-BEIR未覆盖的检索任务。

4、文本到视觉文档搜索数据集（如ViDoRe[4]）：扩展评测数据的覆盖范围，确保对模型通用性的全面评估。

在UMRB评测中，GME-Qwen2-VL系列模型表现优异。2B和7B规模的GME模型均超越了此前的基线模型，验证了其在单模态、跨模态及混合模态检索任务中的有效性。此外，GME在纯文本检索和富文本图片检索上也展现出强大的能力。在BEIR文本检索评测中，尽管多模态嵌入模型在文本任务上略逊于专门的纯文本模型，但GME在富文本图片检索（如论文PDF、财报等）中，无需经过OCR识别即可直接进行高效检索，取得了显著优势。

表3 UMRB评测结果

表4 ViDoRe LeaderBoard

03

模型使用方法

GME模型是通义基于多模态预训练大模型构建多模态Embedidng模型进行的初步探索，当前版本还有许多提升空间和技术改进方向。基于Qwen2-VL系列模型训练的General MultiModal Embedding(GME)系列模型现已在ModalScope平台开源，欢迎感兴趣的同学体验、交流和分享。通义实验室将继续致力于多模态信息处理与检索技术的创新与优化，推动信息检索、多模态RAG的发展与应用落地。

模型地址

gme-Qwen2-VL-2B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-2B-Instruct

gme-Qwen2-VL-7B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-7B-Instruct

04

阿里云多模态Embedding模型服务

通义实验室也在阿里云百炼大模型平台上推出推理性能更佳、垂直领域检索效果更优秀的公共云多模态Embedding模型服务multimodal-embedding-v1, multimodal-embedding-v1模型服务提供文本、图片、视频三种模态的表征能力，详情参考阿里云百炼大模型服务平台模型服务