链载Ai

标题: 揭秘jina-embeddings-v3:如何打造多语言嵌入超人,解锁文本嵌入的新维度! [打印本页]

作者: 链载Ai    时间: 8 小时前
标题: 揭秘jina-embeddings-v3:如何打造多语言嵌入超人,解锁文本嵌入的新维度!

文本嵌入模型是将文档转换为高维向量的技术,广泛应用于自然语言处理(NLP)和信息检索(IR)的各个领域。文本嵌入可以用于多种任务,包括分类、搜索以及聚类等。

增强型检索(RAG)系统中特别依赖文本嵌入技术来提高信息检索的质量。然而,传统的文本嵌入模型虽然设计上是通用的,但在实际应用时往往需要针对具体任务进行微调,并且在遇到常见问题时表现不佳

为了克服上述局限性,我们今天介绍一个新款的文本嵌入模型:jina-embeddings-v3

点关注不迷路

简介

jina-embeddings-v3,一个新款的文本嵌入模型,拥有5.7亿参数,在100多种语言数据和长文本上下文检索任务上实现了最先进的性能,支持长达8192个token的上下文长度。该模型包括一组特定任务的低秩适应(LoRA)适配器,用于为查询-文档检索、聚类、分类和文本匹配生成高质量的嵌入。

在MTEB基准上的评估表明,jina-embeddings-v3不仅在英语任务上超越了OpenAI和Cohere的最新专有嵌入,而且在所有多语言任务上的表现超过了multilingual-e5-large-instruct。默认输出维度为1024,用户可以灵活地将嵌入维度降低到32而不会牺牲性能,这是通过套娃表示学习(Matryoshka Representation Learning)实现的。因此,jina-embeddings-v3被认为是更经济高效的方案,更适合于生产环境和边缘计算场景。

主要特性

模型架构

jina-embeddings-v3 是一个为多种NLP应用设计的多语言多功能文本嵌入模型。基于Jina-XLM-RoBERTa架构,该模型支持旋转位置嵌入(Rotary Position Embeddings, RoPE),能够处理长达8192个标记的长输入序列。此外,它配备了5个LoRA适配器,可以高效生成特定任务的嵌入。

训练方法

我们使用原始XLM-RoBERTa模型的权重来初始化模型。然而,由于位置嵌入方法的变化,模型的原始MLM目标与我们的训练目标并不完全一致。尽管如此,我们观察到使用预训练权重初始化比随机初始化在预训练期间收敛得更快。我们的训练范式包括三个阶段,这在训练文本嵌入模型中很常见:

评测总结

中文任务上,jina-embeddings-v3展现出了强劲的性能。根据论文中的表格A4、A5、A6、A7、A8和A9,我们可以看到以下几点:

  1. 检索任务






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5