链载Ai

标题: 如何看待qwen3-Embedding模型 [打印本页]

作者: 链载Ai    时间: 昨天 21:10
标题: 如何看待qwen3-Embedding模型

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这是目前最权威、最广泛使用的 embedding 评估基准,由 Hugging Face 和一批研究人员发起,旨在全面衡量嵌入模型在不同下游任务中的泛化能力。包含 8 大类、58 个任务。具体的分类和任务我们不做讨论。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我们看下embedding 模型应当具备的能力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
能力
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
相关任务
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
对应意义
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
语义表征能力
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
STS、分类
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
是否能准确理解句子含义
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
检索能力
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;padding: 0.5em 1em;color: rgb(63, 63, 63);word-break: keep-all;">
检索、Rerank
是否能找到语义上相似的句子
多语言泛化能力
跨语言检索
不同语言之间语义是否对齐,英文搜索中文
聚类/结构能力
Clustering
embedding 空间是否语义组织良好
迁移泛化能力
MTEB 全面任务
是否在多个任务/数据集上都有效

在qwen3-Embedding 0.6b没有出来之前,同规格下,bge-m3还是不错的。

我把表格数据下载下来,丢给chatgpt,让它综合评估了下。

BGE-m3 适用场景和不推荐使用场景

Qwen3 Eembedding亮点

Qwen3 Eembedding基于 Qwen3 系列的密集基础模型,所以它天然的继承了qwen3的多语言能力、长文本理解和推理能力。它提供了各种大小(0.6B、4B 和 8B)的全面文本嵌入和重新排序模型。

通过数据可以看到Qwen3-embedding模型上下文长度为32k,嵌入维度可以灵活自定义。

我也让chatgpt基于mteb评测数据综合评估下qwen3-Embedding


不管是通过官方的介绍,还是chatgpt、DeepSeek通过评测数据,qwen3-embedding确实强。怎么选?

部署

Ollama上还没有这个模型,怎么部署?


在魔塔社区,有对应的GGUF模型。

根据自己的需求选一个即可,我选1.2GB大小的模型。
然后创建一个Modelfile,内容如下
FROM ./Qwen3-Embedding-0.6B-f16.gguf 

PARAMETER num_ctx 32768
TEMPLATE """{{ .Prompt }}"""
SYSTEM """Text embedding model. Outputs a vector based on input text."""
curlhttp://127.0.0.1:11434/api/embeddings-d"{\"model\":\"qwen3-embedding:0.6b\",\"prompt\":\"你好,世界\",\"options\":{\"embedding_dim\":256}}"

至于效果,后续实际测试下







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5