链载Ai

标题: SOTA级的Embedding模型!F2LLM模型、数据、代码全部开源,人人可用 [打印本页]

作者: 链载Ai    时间: 前天 22:25
标题: SOTA级的Embedding模型!F2LLM模型、数据、代码全部开源,人人可用

Embedding 模型在信息检索、文本处理、检索增强生成(RAG)中有着重要的应用。然而,当前主流的 Embedding 模型如 NV-Embed、Qwen3-Embedding 的训练或是需要上亿数据量级进行对比学习加训,或是依赖昂贵且没有开源的合成数据,给较小规模的研究团队复现、改进 Embedding 模型的训练算法带来了极大困难。


我们推出 F2LLM(Foundation to Feature Large Language Models),包含 0.6B、1.7B、4B 大小的一系列模型,仅使用六百万数据直接对基座模型进行微调,在 MTEB 榜单上达到业界领先水平,且完全开源。

简介

本文源于蚂蚁集团与上海交通大学的校企合作项目,模型、数据、训练代码全部开源:

与其他业界领先 Embedding 模型相比,F2LLM 不仅完全开源,而且仅使用六百万高质量、非合成数据,在模型大小、训练开销、Embedding 性能上达到了最佳平衡,是作为未来 Embedding 研究 baseline 的理想选择:


数据

F2LLM 的训练数据来自 60 个开源数据集,我们将这些数据集统一整理成了 3 种格式:检索(retrieval),分类(classification),和聚类(clustering)。


在我们开源的数据中,每条检索类与聚类数据包含一条查询(query)、一个段落(passage)、24 个难负样本(hard negative)。每条分类数据同样包含一条查询、一个段落,但只有一个难负样本。


检索数据

检索数据包含开源的检索、摘要、自然语言推理(NLI)、语义相似度(STS)、复述(paraphrase)数据集。

对以上所有检索数据,我们使用 Qwen3-Embedding-0.6B 从各数据集中额外挖掘难负样本,并对过程进行严格把控,确保数据质量:


分类数据

分类数据仅包含 5 个开源二分类数据集。我们将每条数据的输入作为查询,对应类的文本标签作为段落,另一类的文本标签作为负样本。


聚类数据

聚类数据包含开源的聚类数据以及多分类数据。对于每一条输入,我们从同一类中随机采样一条作为段落,从所有其他类中最集采样 24 条作为负样本。

训练

我们使用标准的对比学习损失直接微调 Qwen3 基座模型。损失函数由所有数据的难负样本对比损失与检索类数据的批内对比损失构成:


其中,为温度,在训练过程中设置为0.05,为相似度指标,我们使用余弦相似度。

在训练过程中,我们将所有数据集混合在一起进行训练,但通过特别设计的数据加载器确保在每一步优化过程中,每个训练进程中的数据全部来自单一数据集。对于检索类数据,使用所有进程中样本的段落字段进行计算,提升样本学习效率;对于分类与聚类数据,则只有被计算,不进行计算。

测评

在 MTEB 英语榜单上,F2LLM-4B 总体排名第 7,在 4B 大小模型中排名仅次于使用上亿数据训练的 Qwen3-Embedding 4B。F2LLM-1.7B 更是在 1-2B 模型中排名第一,成为算力受限应用场景下的理想选择。在榜单上的七大类任务中,F2LLM 家族在聚类任务上表现尤其出色,4B 模型的性能达到 68.54 ,在所有模型中创下新高。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5