Embedding 模型在信息检索、文本处理、检索增强生成(RAG)中有着重要的应用。然而,当前主流的 Embedding 模型如 NV-Embed、Qwen3-Embedding 的训练或是需要上亿数据量级进行对比学习加训,或是依赖昂贵且没有开源的合成数据,给较小规模的研究团队复现、改进 Embedding 模型的训练算法带来了极大困难。
我们推出 F2LLM(Foundation to Feature Large Language Models),包含 0.6B、1.7B、4B 大小的一系列模型,仅使用六百万数据直接对基座模型进行微调,在 MTEB 榜单上达到业界领先水平,且完全开源。
本文源于蚂蚁集团与上海交通大学的校企合作项目,模型、数据、训练代码全部开源:
与其他业界领先 Embedding 模型相比,F2LLM 不仅完全开源,而且仅使用六百万高质量、非合成数据,在模型大小、训练开销、Embedding 性能上达到了最佳平衡,是作为未来 Embedding 研究 baseline 的理想选择:
F2LLM 的训练数据来自 60 个开源数据集,我们将这些数据集统一整理成了 3 种格式:检索(retrieval),分类(classification),和聚类(clustering)。
在我们开源的数据中,每条检索类与聚类数据包含一条查询(query)、一个段落(passage)、24 个难负样本(hard negative)。每条分类数据同样包含一条查询、一个段落,但只有一个难负样本。
检索数据包含开源的检索、摘要、自然语言推理(NLI)、语义相似度(STS)、复述(paraphrase)数据集。
对摘要数据,我们将每条数据的摘要作为查询,对应原文作为段落;
对 NLI 数据,我们将前提(premis)作为查询,蕴含的假设(entailed hypothesis)作为段落,中立或矛盾的推理(neutral/contradictory hypothesis)作为难负样本;
对 STS 数据,我们将相似度大于 4 分的文本对分别最为查询-段落和段落-查询,构建两对样本;
对复述数据,我们从互为复述的文本对构建查询-段落;
对以上所有检索数据,我们使用 Qwen3-Embedding-0.6B 从各数据集中额外挖掘难负样本,并对过程进行严格把控,确保数据质量:
分类数据仅包含 5 个开源二分类数据集。我们将每条数据的输入作为查询,对应类的文本标签作为段落,另一类的文本标签作为负样本。
聚类数据包含开源的聚类数据以及多分类数据。对于每一条输入,我们从同一类中随机采样一条作为段落,从所有其他类中最集采样 24 条作为负样本。
我们使用标准的对比学习损失直接微调 Qwen3 基座模型。损失函数由所有数据的难负样本对比损失
与检索类数据的批内对比损失
构成:
其中,
为温度,在训练过程中设置为0.05,
为相似度指标,我们使用余弦相似度。
在 MTEB 英语榜单上,F2LLM-4B 总体排名第 7,在 4B 大小模型中排名仅次于使用上亿数据训练的 Qwen3-Embedding 4B。F2LLM-1.7B 更是在 1-2B 模型中排名第一,成为算力受限应用场景下的理想选择。在榜单上的七大类任务中,F2LLM 家族在聚类任务上表现尤其出色,4B 模型的性能达到 68.54 ,在所有模型中创下新高。