文档重排序（rerank）中的损失函数之争：为何单点模式更常见？

显示全部楼层

文档重排序（rerank）中的损失函数之争：为何单点模式更常见？

概要

本文主要面向对文档排序技术感兴趣的初学者。我们将一起探讨排序模型中常见的三种损失函数：单点（Pointwise）、成对（Pairwise）和列表（Listwise）。我们会结合一些经典和前沿的学术论文，聊一聊为什么在当前的大模型时代，结构最简单的单点损失反而更常见，以及这种选择背后的具体权衡。

前言

在接触排序任务时，我们很容易形成一个直观的看法：排序的本质是对一组候选项进行比较，确定它们的相对顺序。

因此，直接学习文档A比文档B更相关的成对损失，或者优化整个文档列表顺序的列表损失，似乎比孤立地给每个文档打分的单点损失更合理。

然而，我们观察到一个有趣的现象：许多先进的重排模型，特别是那些基于大型预训练模型（如BERT、T5）构建的模型，甚至包括最新的 Qwen Rerank，都大量采用了形式上最简单的单点损失函数。

这背后是什么原因呢？

这篇文章将和你一起，通过回顾几篇重要的研究论文，从模型结构、训练范式的演变等角度，来探究这一现象，看看为什么在实践中，简单直接的单点模式会如此流行，以及另外两种模式的优缺点分别是什么。

排序损失函数的三种范式

要理解模型训练方法的选择，我们首先需要弄清楚几种主流的损失函数范式。它们的核心区别在于，模型在计算损失时，看到了多少信息。

单点 (Pointwise) 模式

单点模式是最基础的一种。在这种模式下，模型每次只关注一个查询（Query）和一个候选文档（Document）的组合(q, d)，并独立地为这个组合预测一个分数或标签。

它的目标是让这个预测分数尽可能接近真实的标签。

早期的 BERT 重排模型就是一个典型的例子。

在论文《PASSAGE RE-RANKING WITH BERT》中，研究者将查询和文档拼接后输入 BERT，并利用[CLS]位置的输出向量来进行二元分类，判断该文档是否与查询相关。

它的损失函数是标准的交叉熵损失，独立地计算每一个正样本和负样本的损失值。对于单个样本，其损失可以简化为：

其中是真实标签（例如1代表相关，0代表不相关），而是模型预测该文档相关的概率。

这种方法的优点是简单、直观且易于扩展。训练数据只需要是独立的(query, doc, label)三元组即可，非常容易获取和处理。

成对 (Pairwise) 模式

成对模式在单点模式的基础上前进了一步。

它不再孤立地看待每个文档，而是关注文档对。

对于同一个查询，模型会同时看到一个正例文档和一个负例文档，其目标是学习到，即正例的得分要高于负例。

经典的 RankNet 模型就是 Pairwise 思想的代表。

在论文《Learning to Rank using Gradient Descent》中，作者提出了一种基于概率的成对损失函数。它通过一个 Logistic 函数将模型对两个文档的输出分数之差转换为一个概率，这个概率代表模型认为文档比文档更相关的置信度。

训练的目标就是让这个预测概率逼近真实的概率。

这种方法直接对文档的相对顺序进行建模，因此在理论上更贴近排序任务的本质。

列表 (Listwise) 模式

列表模式是信息最丰富的范式。它在计算损失时会考虑一个查询下的整个候选文档列表。它的目标是直接优化这个列表的整体排序，使其尽可能接近理想的排序结果。

在《RankT5》这篇论文中，研究者们就重点采用了列表式的 Softmax 交叉熵损失。

它的具体做法是：

首先，模型像 Pointwise 一样为列表中的每个文档都生成一个原始分数。

然后，通过 Softmax 函数将整个列表的分数归一化，转换成一个概率分布。

这个概率可以理解为，某个文档是这个列表中最相关文档的概率。

这里的关键是分母，它将列表中所有个文档的分数都纳入了计算，使得每个文档的最终概率都依赖于列表中的其他所有成员。最后，用这个预测的概率分布和真实的标签分布计算交叉熵损失。

理论上，Listwise 方法能够捕捉到最全面的排序信息，但它对数据的要求也最高，计算也最为复杂。

复杂度对比：为什么简单即是优势

为了更直观地理解这三种模式的差异，我们可以简单对比一下它们的计算复杂度。假设对于一个查询，我们有个候选文档。

Pointwise：模型需要对每个文档独立进行一次前向传播和损失计算。总的计算次数与文档数量成正比。
计算复杂度：
Pairwise：模型需要构建文档对来进行比较。在一个简单的场景下，如果我们有个正样本和个负样本，就需要构建个文档对。当文档数量增多时，需要处理的文档对数量会呈平方级增长。
训练样本复杂度：
Listwise：模型需要一次性处理整个包含个文档的列表。虽然前向传播可能只需要一次（取决于具体实现），但损失函数的计算通常涉及到对列表中所有文档分数的归一化（如 Softmax），或者需要考虑所有可能的排列组合，计算复杂度是最高的，更重要的是数据标注的问题。
计算复杂度：通常高于，并且对训练时的批处理大小（Batch Size）和内存有更高的要求。

从这个对比中我们可以看到，Pointwise 模式的计算和数据构建成本是最低的。

当训练数据规模达到千万甚至上亿级别时，这种复杂度的差异会变得极其显著。

Pairwise 的组合爆炸问题和 Listwise 的高昂计算成本，使得它们在大规模训练场景下的应用受到了很大的限制。

这也就是为什么，在算力和数据规模成为决定性因素的今天，Pointwise 这种简单的模式成为了一种常见的选择。

模型的演进：从优化损失到优化数据和规模

既然 Pairwise 和 Listwise 在理论上更优，为什么 Pointwise 却在当前大行其道呢？答案在于，模型训练的范式已经发生了根本性的转变。

在过去，当模型（如早期的浅层网络）自身能力有限时，我们需要设计更精巧、更复杂的损失函数，以便从有限的数据中尽可能多地压榨出排序信号。

然而，随着 BERT、T5、Qwen3 等超大规模预训练模型的出现，模型本身的基础能力得到了极大的提升。

这些模型已在海量文本数据中学习了丰富的语义知识和一定的逻辑推理能力。此时，训练的瓶颈不再是损失函数的设计，而是如何提供规模足够大、质量足够高、覆盖面足够广的训练数据来有效激发模型的潜力。

在这一新的范式下，Pointwise 损失简单、可扩展的优势被极大地放大了。

Pointwise 模式对数据没有结构化的要求，任何一个独立的(query, doc, label)对都可以作为一个训练样本。

这使得我们可以轻易地将训练数据扩展到千万甚至上亿的规模。

例如，在《Qwen3 Embedding》这篇技术报告中，研究者利用其基础模型的能力，合成了大约 1.5 亿个弱监督训练数据对。这种规模的数据量，如果采用 Pairwise 或 Listwise 所需的复杂分组结构，处理起来会非常困难。

现代大语言模型（LLM）的微调通常被看作是一种指令遵循（Instruction Following）或特定格式的文本生成任务。

将排序任务构建成一个 Pointwise 的二元分类问题，与这种范式完美契合。

例如，《Qwen3 Embedding》中介绍的 Reranker 模型，就是通过一个精心设计的聊天模板，让模型判断文档是否符合查询要求，并最终生成 "yes" 或 "no"。这本质上就是一个 Pointwise 的判别过程。

当模型足够强大的时候，一个相对简单的学习信号，只要数据量足够，就足以引导模型学会复杂的任务。

我们不再需要通过复杂的损失函数手把手地教模型如何比较，只需要给它足够多的好与坏的例子，它强大的归纳能力就能自己学会判断优劣。

现代模型的选择与权衡

当然，这并不意味着 Pairwise 和 Listwise 损失已经被完全抛弃。现代模型在选择损失函数时，依然是一个基于多方面因素的权衡过程。

我从《RankT5》的实验中看到，Listwise 损失（Softmax Loss）确实可以取得比 Pointwise 损失更好的性能。

但研究者也指出，要达到这种优势，训练时列表的大小（即每个查询同时处理的负样本数量）需要足够大，例如达到20或30。

这无疑增加了训练的资源开销和实现复杂度。如果每个查询只用少量负样本训练，Listwise 的效果甚至可能不如 Pointwise。

同样是在《RankT5》的论文中，一个有趣的发现是，使用 Listwise 损失训练的模型在零样本场景下的泛化能力更强。

当把在 MS MARCO 数据集上训练的模型直接用于 BEIR 这个跨领域基准测试时，Listwise 训练的模型在多数任务上表现更优。

这或许说明，通过一次性看到整个列表，模型学习到了更抽象、更通用的相关性概念，而不仅仅是记忆特定数据集的特征。

一些新颖的模型架构依然从 Pairwise 损失中获益。

例如，《ColBERT》这篇论文提出了一种新颖的延迟交互（Late Interaction）架构。它的训练就是通过一个Pairwise 的 Softmax 交叉熵损失，在(query, positive_doc, negative_doc)三元组上进行的。

这种损失函数巧妙地将 Pairwise 和 Softmax 的思想结合起来：

它将一个正样本和一个负样本看作一个长度为2的迷你列表，然后用 Softmax 函数计算这个迷你列表中正样本的概率，并最大化这个概率。

虽然论文中没有直接给出这个公式，但核心思想可以简化地表示为：

其中是模型对正样本的打分，是对负样本的打分。

这个方法既保留了 Pairwise 比较相对顺序的核心思想，又利用了 Softmax 的优化特性，是一种非常有效的实践。

这表明 Pairwise 损失在与合适的模型架构结合时，依然是一种有效的策略。

总结

通过这次讨论，我们了解了以下几点：

文本排序任务主要有三种损失函数范式：Pointwise、Pairwise 和 Listwise，它们的理论复杂度和信息丰富度依次递增。

随着大规模预训练模型的兴起，训练的重点逐渐从优化损失函数转向优化数据规模和质量。

Pointwise 损失因其简单、高效、可扩展性强，并且与大模型的微调范式天然兼容，成为了当前 rerank 模型中一种常见的方案。

Listwise 损失在效果上通常更优，尤其是在跨领域的泛化能力上展现出潜力，但它的优势发挥依赖于在训练中使用足够大的文档列表，这带来了更高的工程成本。

最终方法的选择，是模型、数据、算力和任务目标之间的一个综合权衡。