链载Ai

标题: Qwen3-VL-Embedding系列上新:探索统一多模态表征与排序 [打印本页]

作者: 链载Ai    时间: 昨天 17:13
标题: Qwen3-VL-Embedding系列上新:探索统一多模态表征与排序

2025年6月,我们开源了面向文本的Qwen3-Embedding和Qwen3-ReRanker 模型系列,在多语言文本检索、聚类和分类等多项下游任务中取得了业界领先的性能,被社区开发者广泛使用。 今天,我们非常荣幸地推出Qwen家族的最新成员:Qwen3-VL-EmbeddingQwen3-VL-Reranker模型系列。这些模型基于我们最近开源的Qwen3-VL模型构建,专为多模态信息检索和跨模态理解场景设计。


欢迎体验

Qwen3-VL-Embedding:

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Embedding-8B

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Embedding-2B

https://huggingface.co/Qwen/Qwen3-VL-Embedding-8B

https://huggingface.co/Qwen/Qwen3-VL-Embedding-2B


Qwen3-VL-Reranker:

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Reranker-8B

https://www.modelscope.cn/models/Qwen/Qwen3-VL-Reranker-2B

https://huggingface.co/Qwen/Qwen3-VL-Reranker-8B

https://huggingface.co/Qwen/Qwen3-VL-Reranker-2B


GitHub仓库地址:

https://github.com/QwenLM/Qwen3-VL-Embedding


核心特性


图1:统一多模态表示空间示意图。Qwen3-VL-Embedding模型系列将多源数据(文本、图像、视觉文档和视频)映射到共同的高维语义空间。


模型概览


下表展示了Qwen3-VL-Embedding和Qwen3-VL-Reranker的详细规格参数:

注:「量化支持表示Embedding支持的量化后处理;「MRL 支持」表示 Embedding 模型是否允许用户指定嵌入维度;「指令感知」表示模型是否支持针对特定任务自定义输入指令。


模型构架


与文本Qwen3-Embedding和Qwen3-ReRanker模型系列类似,Qwen3-VL-Embedding 采用双塔架构,Qwen3-VL-Reranker采用单塔架构。我们设计了一套多阶段训练范式,充分发挥Qwen3-VL底座模型的通用多模态语义理解能力,为复杂、大规模的多模态检索任务提供高质量的语义表示和精确的重排序机制。

图 2:Qwen3-VL-Embedding和Qwen3-VL-Reranker 架构概览。左侧为Embedding模型的双塔独立编码架构,右侧为Reranker 模型的单塔交叉注意力架构


Embedding模型接收单模态或混合模态输入,并将其映射为高维语义向量。具体而言,我们提取基座模型最后一层中对应[EOS]token 的隐藏状态向量,作为输入的最终语义表示。这种方法确保了大规模检索所需的高效独立编码能力。

Reranking模型接收输入对(Query, Document)并进行联合编码。它利用基座模型内的交叉注意力(Cross-Attention)机制,实现 Query 和 Document 之间更深层、更细粒度的跨模态交互和信息融合。模型最终通过预测两个特殊 token(yes和no)的生成概率来表达输入对的相关性分数。


功能特性对比


评测结果


Qwen3-VL-Embedding

我们主要在MMEB-v2和MMTEB基准测试上评估了Qwen3-VL-Embedding 模型的性能。

Qwen3-VL-Embedding-8B模型在MMEB-V2上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。在不同检索模态的细分性能上,我们的模型在文本、图像、视觉文档和视频检索子任务中均取得了SOTA 结果。

在纯文本多语言MMTEB基准测试上,Qwen3-VL-Embedding模型与同等规模的纯文本 Qwen3-Embedding模型相比有少许的性能差距。与评测排行榜上其他同等规模的模型相比,它仍然展现出极具竞争力的性能表现。

图 3:Qwen3-VL-Embedding在MMEB-v2和MMTEB评测集上的性能对比。


Qwen3-VL-Reranker

我们使用了MMEB-v2和MMTEB检索基准中各子任务的检索数据集进行评测。对于视觉文档检索,我们采用了JinaVDR和ViDoRe v3数据集。

评测结果表明,所有Qwen3-VL-Reranker模型的性能均持续优于基础 Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到了最佳性能。


Qwen3-VL-Reranker 评测结果对比:


使用指南

Embedding 和 Reranking 模型通常在检索系统中协同使用,形成高效的两阶段检索流程:1). 召回阶段:Embedding 模型执行初始召回,从海量数据中快速检索出大量候选结果。2). 重排序阶段:Reranking 模型对候选结果进行精细化排序,基于重新计算的相关性分数为用户查询呈现最精确的结果。


Embedding模型使用示例:

from scripts.qwen3_vl_embedding import Qwen3VLEmbedderimport numpy as npimport torch
# Define a list of query textsqueries = [ {"text":"A woman playing with her dog on a beach at sunset."}, {"text":"et owner training dog outdoors near water."}, {"text":"Woman surfing on waves during a sunny day."}, {"text":"City skyline view from a high-rise building at night."}]
# Define a list ofdocument texts and imagesdocuments = [ {"text":"A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."}, {"image":"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}, {"text":"A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.","image":"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}]
# Specify the model pathmodel_name_or_path ="Qwen/Qwen3-VL-Embedding-2B"
# Initialize the Qwen3VLEmbedder modelmodel = Qwen3VLEmbedder(model_name_or_path=model_name_or_path)# We recommend enabling flash_attention_2 for better acceleration and memory saving,# model = Qwen3VLEmbedder(model_name_or_path=model_name_or_path, dtype=torch.float16, attn_implementation="flash_attention_2")
# Combine queries and documents into a single input listinputs = queries + documents
embeddings = model.process(inputs)
# Compute similarity scores between query embeddings and document embeddingssimilarity_scores = (embeddings[:4] @ embeddings[4:].T)
# Print out the similarity scores in a list formatprint(similarity_scores.tolist())
# [[0.83203125, 0.74609375, 0.73046875], [0.5390625, 0.373046875, 0.48046875], [0.404296875, 0.326171875, 0.357421875], [0.1298828125, 0.06884765625, 0.10595703125]]


Reranking模型使用示例:

fromscripts.qwen3_vl_rerankerimportQwen3VLRerankerimportnumpyasnpimporttorch
# Specify the model pathmodel_name_or_path ="Qwen/Qwen3-VL-Reranker-2B"
# Initialize the Qwen3VLEmbedder modelmodel = Qwen3VLReranker(model_name_or_path=model_name_or_path)# We recommend enabling flash_attention_2 for better acceleration and memory saving,# model = Qwen3VLReranker(model_name_or_path=model_name_or_path, dtype=torch.float16, attn_implementation="flash_attention_2")
# Combine queries and documents into a single input list
inputs = { "instruction":"Retrieval relevant image or text with user's query", "query": {"text":"A woman playing with her dog on a beach at sunset."}, "documents": [ {"text":"A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."}, {"image":"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}, {"text":"A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.","image":"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"} ], "fps":1.0}
scores = model.process(inputs)print(scores)# [0.8408790826797485, 0.6197134852409363, 0.7778129577636719]

未来展望


Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列是我们在统一多模态表示和检索领域的初步探索。 相比纯文本的Embedding和Reranking模型,多模态学习,尤其是统一多模态表征和重排序在模型成熟度提升,易用性优化,应用场景扩展等方面仍有巨大的探索空间。 Qwen3-VL-Embedding和Qwen3-VL-Reranker的开源是一个新的起点。我们期待与社区携手合作,共同探索和构建更加通用的统一多模态检索能力,推动多模态AI技术的发展与落地应用。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5