Qwen3上新，Qwen3-Embedding模型全新登场！

显示全部楼层

一、Qwen3-Embedding 概述

Qwen3-Embedding是阿里云通义千问团队推出的专用文本嵌入模型，基于 Qwen 系列大模型开发，目标是生成高质量、可用于语义检索、RAG（检索增强生成）和相似度匹配的向量表示。

GitHub - QwenLM/Qwen3-Embedding

主要版本模型

模型名称	维度	结构	支持语言	是否开源
`Qwen/Qwen-Embedding`	1024	基于 Qwen3 指令微调	中文、英文（多语言）	✅
`Qwen/Qwen-Embedding-Chinese`	512/1024	优化中文表现	中文	✅
`Qwen/Qwen-Embedding-Mini`	384	轻量版，适合端侧	中文、英文	✅

二、模型优势与特点

✅ 优点

多语言支持：支持中英文，主打中文语义表现。
指令微调：借助 Qwen3 指令微调框架，对用户问题与文档对建模更有效。
语义一致性强：在 OpenCompass、MTEB（Multilingual Text Embedding Benchmark）等评测中表现优秀。
开源可商用：模型权重完全开源，适合落地应用。
适配向量数据库：输出向量兼容 FAISS、Milvus、Weaviate 等数据库。
支持长文本：可处理较长输入（上下文窗口 4K+ token，取决于具体版本）。

❌ 缺点

仍较大：标准版维度为 1024，模型体积较大（不适合端侧轻量化部署）。
推理速度慢于 SOTA 小模型：如 BGE-small、MiniLM 等轻量 embedding 模型。
英语语义表现略逊：相对英文专用 embedding 模型如E5,GTE表现略低。
GPU资源要求高：标准版在部署时至少需要 6GB 显存。

三、性能参数与评测指标

✅ 维度与参数量

模型名称	维度	参数量	Token长度	推理设备推荐
`Qwen-Embedding`	1024	~1B	4096+	A10、3090
`Qwen-Embedding-Mini`	384	~100M	2048	消费级GPU/CPU

📊 性能评测（来自 MTEB 中文任务子集）

评测任务	Qwen-Embedding	BGE-Large	GTE-Large
相似度匹配	✅ 91.2	88.4	89.0
分类	✅ 92.5	91.1	90.6
检索（retrieval）	✅ 84.6	82.2	83.1
多语言任务	✅ 优	中	中等偏上

四、部署与使用详细教程

✅ 1. Hugging Face 加载方式（Python）

pipinstall-Utransformersacceleratesentence-transformers

fromsentence_transformersimportSentenceTransformermodel=SentenceTransformer("Qwen/Qwen-Embedding")texts=["通义千问是一个强大的大语言模型","ChatGPT是AI聊天助手"]embeddings=model.encode(texts)print(embeddings.shape)#输出为(2,1024)

或使用transformers原生方式：

fromtransformersimportAutoTokenizer,AutoModelimporttorchtokenizer=AutoTokenizer.from_pretrained("Qwen/Qwen-Embedding")model=AutoModel.from_pretrained("Qwen/Qwen-Embedding")inputs=tokenizer(["Qwen3是阿里推出的模型","ChatGPT是OpenAI推出的模型"],padding=True,return_tensors="pt")withtorch.no_grad()utputs=model(**inputs)embeddings=outputs.last_hidden_state.mean(dim=1)

✅ 2. 本地部署（推理部署）

使用 Hugging Face 模型缓存或下载权重

gitlfsinstallgitclonehttps://huggingface.co/Qwen/Qwen-Embedding

使用 FastAPI 或 Gradio 封装接口

fromfastapiimportFastAPIfrompydanticimportBaseModelfromsentence_transformersimportSentenceTransformermodel=SentenceTransformer("Qwen/Qwen-Embedding")app=FastAPI()classInputText(BaseModel):text:str@app.post("/embed")defembed_text(data:InputText):embedding=model.encode(data.text)return{"embedding":embedding.tolist()}

✅ 3. 向量数据库集成示例（以 FAISS 为例）

importfaissimportnumpyasnpdocs=["千问是中文大模型","GPT是英文大模型"]doc_embeds=model.encode(docs)dim=doc_embeds.shape[1]index=faiss.IndexFlatL2(dim)index.add(np.array(doc_embeds))query="中文语义模型"query_embed=model.encode([query])distances,indices=index.search(np.array(query_embed),k=1)print(indices)#返回最近的文档索引

五、适用场景推荐

场景类型	推荐理由
✅ 中文RAG系统	语义表现优，适配 Qwen 系列
✅ 多轮对话检索	支持长文本，嵌入稳定
✅ 法律/医疗文档搜索	高精度匹配
✅ 中文问答匹配	优于同类 embedding 模型
✅ 结合向量数据库使用	与 FAISS/Milvus 等兼容

六、与其他模型对比分析

模型名称	维度	中文能力	英文能力	推理速度	模型大小	适配RAG
Qwen-Embedding	1024	⭐⭐⭐⭐⭐	⭐⭐⭐	中等	大	✅ 非常适合
BGE-Large	1024	⭐⭐⭐⭐	⭐⭐	中	中	✅
GTE-Large	768	⭐⭐	⭐⭐⭐⭐	快	小	✅
MiniLM	384	⭐	⭐⭐⭐⭐	非常快	非常小	❌（精度差）

七、总结

Qwen3-Embedding 是目前中文语义向量生成的强力选手，在检索增强生成（RAG）、多轮问答匹配等任务中表现优异，尤其在中英文混合场景中有显著优势。适合部署在企业级语义搜索平台，也可用于轻量文本推荐系统。

如果你需要RAG系统中文嵌入模型首选，强烈建议优先考虑 Qwen3-Embedding。