SOTA级的Embedding模型！F2LLM模型、数据、代码全部开源，人人可用

显示全部楼层

Embedding 模型在信息检索、文本处理、检索增强生成（RAG）中有着重要的应用。然而，当前主流的 Embedding 模型如 NV-Embed、Qwen3-Embedding 的训练或是需要上亿数据量级进行对比学习加训，或是依赖昂贵且没有开源的合成数据，给较小规模的研究团队复现、改进 Embedding 模型的训练算法带来了极大困难。

我们推出 F2LLM（Foundation to Feature Large Language Models），包含 0.6B、1.7B、4B 大小的一系列模型，仅使用六百万数据直接对基座模型进行微调，在 MTEB 榜单上达到业界领先水平，且完全开源。

▍

简介

本文源于蚂蚁集团与上海交通大学的校企合作项目，模型、数据、训练代码全部开源：

arXiv：https://arxiv.org/abs/2510.02294

GitHub：https://github.com/codefuse-ai/CodeFuse-Embeddings
HuggingFace：https://huggingface.co/collections/codefuse-ai/codefuse-embeddings-68d4b32da791bbba993f8d14

与其他业界领先 Embedding 模型相比，F2LLM 不仅完全开源，而且仅使用六百万高质量、非合成数据，在模型大小、训练开销、Embedding 性能上达到了最佳平衡，是作为未来 Embedding 研究 baseline 的理想选择：

▍

数据

F2LLM 的训练数据来自 60 个开源数据集，我们将这些数据集统一整理成了 3 种格式：检索（retrieval），分类（classification），和聚类（clustering）。

在我们开源的数据中，每条检索类与聚类数据包含一条查询（query）、一个段落（passage）、24 个难负样本（hard negative）。每条分类数据同样包含一条查询、一个段落，但只有一个难负样本。

检索数据

检索数据包含开源的检索、摘要、自然语言推理（NLI）、语义相似度（STS）、复述（paraphrase）数据集。

对摘要数据，我们将每条数据的摘要作为查询，对应原文作为段落；
对 NLI 数据，我们将前提（premis）作为查询，蕴含的假设（entailed hypothesis）作为段落，中立或矛盾的推理（neutral/contradictory hypothesis）作为难负样本；
对 STS 数据，我们将相似度大于 4 分的文本对分别最为查询-段落和段落-查询，构建两对样本；
对复述数据，我们从互为复述的文本对构建查询-段落；

对以上所有检索数据，我们使用 Qwen3-Embedding-0.6B 从各数据集中额外挖掘难负样本，并对过程进行严格把控，确保数据质量：

首先计算查询与段落的相关性分数
从源数据集中召回 100 条与查询最相关的段落作为候选负样本，但除去最相关的五条以避免假阴性的负样本
除去相关性大于 0.8 的候选负样本
除去相关性大于正样本相关性 95% 的候选负样本
从剩余候选负样本中选择相关性最高的 24 条作为难负样本，若剩余候选负样本不足 24 条则删除该数据

分类数据

分类数据仅包含 5 个开源二分类数据集。我们将每条数据的输入作为查询，对应类的文本标签作为段落，另一类的文本标签作为负样本。

聚类数据

聚类数据包含开源的聚类数据以及多分类数据。对于每一条输入，我们从同一类中随机采样一条作为段落，从所有其他类中最集采样 24 条作为负样本。

▍

训练

我们使用标准的对比学习损失直接微调 Qwen3 基座模型。损失函数由所有数据的难负样本对比损失与检索类数据的批内对比损失构成：

其中，为温度，在训练过程中设置为0.05，为相似度指标，我们使用余弦相似度。

在训练过程中，我们将所有数据集混合在一起进行训练，但通过特别设计的数据加载器确保在每一步优化过程中，每个训练进程中的数据全部来自单一数据集。对于检索类数据，使用所有进程中样本的段落字段进行计算，提升样本学习效率；对于分类与聚类数据，则只有被计算，不进行计算。

▍

测评

在 MTEB 英语榜单上，F2LLM-4B 总体排名第 7，在 4B 大小模型中排名仅次于使用上亿数据训练的 Qwen3-Embedding 4B。F2LLM-1.7B 更是在 1-2B 模型中排名第一，成为算力受限应用场景下的理想选择。在榜单上的七大类任务中，F2LLM 家族在聚类任务上表现尤其出色，4B 模型的性能达到 68.54 ，在所有模型中创下新高。