0. 引言

随着大语言模型（LLMs）训练的不断深入，如何跨越人类认知局限性已成为一个重要前沿。现有研究表明，专有 agentic 系统，如 DeepResearch，已在 BrowseComp（专门用于评测浏览器Agent的测试基准）等极其复杂的信息搜索基准测试中展现出超人能力，这在以往是无法实现的。研究人员普遍认为，其成功源于多数开源模型所不具备的复杂推理模式：即在广阔信息环境中系统性地降低极端不确定性的能力。为此，阿里巴巴通义实验室提出了WebSailor，一个完整的后训练方法，旨在赋予开源 agent 这种关键能力。

原始论文： https://arxiv.org/abs/2507.02592

GitHub仓库： https://github.com/Alibaba-NLP/WebAgent/

PS：WebAgent项目下还有WebWalker和WebDancer，后续补充解读，感兴趣的小伙伴可以留意公众号"小窗幽记机器学习"：

1. 简介

赶时间的小伙伴可以通过以下QA问答的方式快速了解WebSailor的重点。

Q1: 这篇文章想要解决什么问题？

文章旨在解决当前开源 LLMs 和 web agent 在复杂信息寻求任务（如 BrowseComp-en/zh）上表现不足的问题，它们在此类基准测试中通常准确率接近于零。真的是难于上青天！

那为啥普遍表现如此差强人意？一句话，没学过，太难了！现有的训练范式主要关注 Level 1（低不确定性）和 Level 2（有明确解决路径）的任务，未能让模型接触到 Level 3 的挑战。Level 3 任务要求在复杂的、没有预定义解决方案路径的信息环境中进行鲁棒的组合泛化。因此，模型未能发展出处理这些复杂任务所需的多步骤推理能力。

因此，研究的核心问题是如何向开源 agent 灌输这种高级的、降低不确定性的推理能力。

Q2: 这篇文章如何解决这些问题？

文章提出WebSailor，一个全面的后训练方法，旨在向Agent灌输这种在海量信息中系统性降低极端不确定性的关键能力。

WebSailor 的核心方法包括：

通过结构化采样和信息混淆技术生成新颖的、高不确定性任务（SailorFog-QA）作为训练数据。
采用RFT（Rejection Sampling Fine-Tuning）冷启动，为 agent 奠定基础的工具使用和长链推理能力。
引入一种高效的 agentic 强化学习（RL）训练算法：Duplicating Sampling Policy Optimization (DUPO)，以解决多轮推理和重度工具使用导致的训练缓慢问题。
通过从专家 LRM（Large Reasoning Models）轨迹中重构推理过程，生成简洁、面向行动的 thought 作为监督信号，避免专家模型冗余或风格化的输出对训练 agent 产生负面影响。

Agent 采用ReAct 框架，在每次迭代中生成 Thought、执行 Action（工具调用）并接收 Observation。它使用search工具（访问 Google 搜索引擎）和visit工具（访问特定网页并提取相关信息）进行信息检索。

Q3: 文章所提出方法的效果如何？

WebSailor 系列模型（3B, 7B, 32B, 72B）在复杂信息寻求任务中，显著优于所有开源 agent 和方法。
WebSailor-72B 在 BrowseComp-zh 基准测试中实现了与顶尖专有 agent Doubao 相当的性能，大幅缩小了开源模型与专有系统之间的能力差距。
即使是较小规模的 WebSailor-7B 模型，在 BrowseComp-en 上的准确率（6.7%）也明显优于基于更大 32B 模型的 agent（如 WebDancer-32B 的 2.5% 和 WebThinker-RL 的 2.8%），这表明性能提升主要来源于创新的训练范式而非模型规模的简单扩大。
WebSailor 表现出向下兼容性，在 GAIA、Xbench-DeepSearch 等复杂任务以及 SimpleQA 等简单任务上都取得了良好表现。

Q4: 文章所提方法还有哪些不足？

Context 窗口限制：为了实用性，训练轨迹被限制在 32k token 以下，这可能会限制模型处理更复杂问题的能力。分析失败案例发现，许多错误是由于超出 context 限制引起的，并且推理长度增加时性能可能会下降。
强化学习训练效率：即使有 DUPO 的优化，由于同步 RL 框架的固有低效性，RL 训练过程仍被限制在 50 步以内，训练速度仍然是一个瓶颈。
“过度思考”倾向：WebSailor 在处理一些看似简单的问题时可能会表现出“过度思考”的倾向，执行多步骤的工具调用。尽管作者认为这可能是一种交叉验证，但其效率仍有待考量。
数学和计算能力：WebSailor 未专门针对数学和计算能力进行优化，这导致其在 GAIA 等需要这些能力的任务上表现提升幅度相对较小。

更多大模型相关欢迎关注公众号"小窗幽记机器学习"。

2. 方法

WebSailor 涵盖了从数据构建到训练优化的完整流程，为 LLM agent 注入了强推理能力。

Agent 框架

WebSailor 采用ReAct 框架，该框架允许 agent 在接收问题后进行多次 Thought-Action-Observation 迭代。在每次迭代中，LLM 根据现有 context 生成一个 Thought，然后执行一个可解析的 Action（工具调用），环境随后返回一个 Observation。

Action 空间包括生成最终答案和调用两种工具：

Search 工具：用于访问 Google 搜索引擎进行信息检索。它允许同时搜索多个查询，并为每个查询返回前 10 个结果，包括标题、摘要和对应的 URL。
Visit 工具：用于访问特定网页。输入包括多个网页及其对应的访问目标。首先，利用 Jina 获取网页的完整内容，然后使用 Qwen-2.5-72B 作为摘要模型，根据目标提取相关信息。

一次完整的 agent 轨迹定义为：

其中分别表示第 i 轮的 thought、action 和 observation。对于step t，是策略模型基于过往上下文的采样结果：

大规模训练数据合成 (SailorFog-QA)

任务等级划分

论文根据信息寻求任务的内在不确定性及降低不确定性的复杂性，将其分为三个等级：

Level 1：不确定性低，易于解决，如通过模型内部知识或单次直接搜索即可回答的问题。
Level 2：初始不确定性高但有明确解决路径的任务，如多跳问答，通过固定序列的推理步骤可系统性地降低不确定性。
Level 3：不确定性高且难以降低(WebSailor工作重点)。实体以复杂、突发的方式耦合，缺乏预定义的推理路径，需要创造性探索和新颖推理模式。

Figure 2：信息检索任务可以分为三个层级。第1级具有相对简单的逻辑结构，可以直接回答，或通过一次简单的工具调用得到答案。第2级类似于多跳问题，需要通过一系列固定的推理步骤来获得解决方案。第3级在经过混淆处理后，表现出最复杂且多变的结构，这使得其难以通过人工方式进行定义，并且其固有的不确定性也难以降低。

SailorFog-QA数据集合成

SailorFog-QA 是一个用于训练模型处理高不确定性和难以降低不确定性的复杂信息查找任务（即 Level 3 任务）的数据集。其合成过程主要包括两个方面：构建复杂的信息图谱作为结构基础，以及通过子图采样和信息模糊化生成高不确定性问题。

具体合成步骤如下：

构建难以降低不确定性的结构基础：

首先，通过随机游走（random walks）从真实世界网站构建知识图谱，旨在形成非线性、复杂交联的结构。
种子实体选择：从 Wikidata 的 SPARQL 服务中获取一个模糊的、较不常见的实体作为图谱的起始点，以确保初始的挑战性。
信息收集：利用模拟网络浏览功能，通过搜索（search）和访问（visit）工具（例如使用 Jina.ai 和 Qwen-2.5-72B 作为摘要模型）收集起始实体在互联网上的非结构化文本和特征。
图谱扩展：从收集到的原始信息中提取相关的实体及其之间的关系，形成初始的节点（entities）和边（relationships）。
迭代式增长：以一定的概率，选择现有节点并寻找新的、独特的实体进行连接。这种随机过程有助于避免生成简单的线性关系链（Level 2 任务的特点），而是促进形成一个密集互联、具有复杂重叠关系路径的图谱。
最终形成的图谱为缺乏预定义推理路径的问题提供了结构基础，迫使代理在复杂的信息网络中导航，而非遵循直线路径。

通过子图采样和模糊化生成高不确定性问题：

这种结构复杂性和信息模糊性的结合，直接增加了问题的初始不确定性，迫使代理必须进行推理、比较和信息整合，而不仅仅是简单的查找。

将精确的日期转换为模糊的时间段（如“2010年代早期”）。
部分遮蔽人名（如“由名字首字母为‘F’的人创立的机构”）。
定性描述定量属性（如“市场份额小于1%”）。

子图采样：从上述构建的复杂图谱中采样具有多样化拓扑结构的子图，每个子图代表一个独特的耦合实体和关系组合。
问题与答案生成：基于采样的子图，自动生成对应的问题和答案。
信息模糊化：为了增加初始不确定性，刻意通过信息模糊化技术引入歧义。例如：

SailorFog-QA 的关键优势

真实世界基础：数据根植于真实的互联网信息，反映了代理在实践中面临的挑战。
复杂推理模式多样性：多样化的子图拓扑结构自然地生成了需要多步骤演绎、组合分析和比较分析等复杂推理模式的问题。
高可扩展性：潜在子图的数量随着图谱规模的增长呈非线性增加，从而能够高效地进行大规模数据合成。

这些生成的 Level 3 任务非常具有挑战性，即使是强大的专有模型（如 o3）也可能需要多达40次工具调用才能解决，并且人工研究人员在常规时间限制内也难以解决，因为它们缺乏明确的搜索起点，需要进行广泛的非线性探索。

从专家推理模型重构推理

虽然开源的大型推理模型（LRMs）如 QwQ-32B 可以解决一些复杂问答，但直接使用其原始输出进行微调效果不佳。存在两大问题：

风格污染：专家 LRMs 具有强烈且通常冗长的推理风格(当然，这也有可能囿于现有专家自身能力不足)，直接模仿可能限制 agent 发展自己的探索策略。
上下文过载(Context Overload)：冗长的推理链条在复杂 web agent 任务中容易超出上下文窗口限制，导致性能下降和可读性差。

如何解决？首先，通过提示的方法让开源 LRM 生成完整的解决方案轨迹，包括其原始 thought。然后，选择性地丢弃其的冗长 thought，仅保留成功的Action-Observation 序列。接着，对动作序列中的每一步，利用另一个强大的指令遵循模型 (原文未明确说明具体是哪个模型)，根据历史 context、专家选择的 action 和随后的 observation，重建简洁、面向行动的 thought)。这种方法通过强制使用“short-CoT”风格，确保最终的推理链足够紧凑，适用于长时任务，从而可扩展地生成高质量监督数据，灌输复杂推理模式而无直接模仿的副作用。

带冷启动的强化学习

WebSailor 使用两阶段训练。首先采用了一个适度的Rejection Sampling Fine-Tuning (RFT)阶段作为“冷启动”。这一初始阶段旨在使模型具备基本的工具使用能力，并遵循长程推理的基本框架。随后，利用强化学习（RL）进一步提升其推理能力，提高其样本效率，并使其能够更充分地利用高质量、复杂的训练数据。

训练细节：SFT 阶段使用 Megatron ，RL 训练使用 verl 。具体超参数设置在附录中详细给出。

阶段1：Rejection Sampling Fine-Tuning (RFT) 冷启动

这个初始阶段旨在为模型提供基本的工具使用能力和遵循长链推理框架的能力。
过滤：对专家生成的轨迹进行三阶段过滤：1) 只保留最终答案正确的轨迹；2) 丢弃长度超过 32k token 的轨迹；3) 只保留工具调用次数超过 5 次的轨迹，以确保任务复杂性。
训练目标：专门增强 agent 的决策能力，即生成有效 thought 和 action 的能力。环境中 observation () 对应的 token 会被 mask 掉，不参与损失计算。
研究表明，即使是仅包含 2k 多个高质量示例的适度 RFT 冷启动也是不可或缺的。

阶段2：Duplicating Sampling Policy Optimization (DUPO)

在 RFT 冷启动之后，DUPO 用于进一步提升 agent 的推理能力和样本效率。RL agent 的 rollout 涉及与环境的多轮交互，导致其速度远慢于标准 RL。DUPO 引入了两种动态采样策略来解决这一问题：

训练前：过滤掉过于简单的案例（所有 8 个 rollout 都正确的案例）。
训练中：对于batch中标准差非零的样本（即并非所有 rollout 都完全正确或完全不正确，换句话说部分rollout成功，部分失败，存在标准差），通过复制这些样本来扩充填满batch，而不是使用 padding。这比 DAPO 的动态采样方法(去环境中拉取新样本)提高了约 2-3 倍的速度。

损失计算：在计算策略损失时，与监督微调（SFT）类似同样会 mask 掉 observation。
优势估计：DUPO遵循GPRO（Group-Relative Policy Optimization）方法来估计组内相对优势
策略梯度损失：采用了DAPO中的token级别的策略梯度损失和更高的clip技术
DUPO的训练目标：DUPO的训练目标是帮助模型发现并内化超越直接模仿的复杂问题解决策略
DUPO的奖励机制：为了避免奖励作弊（reward hacking），WebSailor采用了基于规则的奖励机制。这个奖励机制结合了两个部分：

格式验证（0.1权重）：检查rollout轨迹是否遵循预定义的格式，例如不同内容段是否正确地用<think>和<tool_call>等标签包裹，以及序列是否符合ReAct框架。
答案验证（0.9权重）：使用另一个LLM作为判断器来确定最终预测是否正确

这2阶段的收益可以通过Figure 5：

从Figure 5可以看出，RL阶段（绿色部分注明了提升幅度）对模型的性能，尤其是在BrowseComp这种高难度任务上，带来了巨大的提升。

3. 实验结果

文章在多个挑战性基准测试上对 WebSailor 进行了全面评估，并与多种基线方法进行比较。

评测基准和基线模型

1、模型与基准测试：WebSailor 在 Qwen-2.5-3B, Qwen-2.5-7B, Qwen-2.5-32B 和 Qwen-2.5-72B 模型上进行了 RFT 和 RL 训练。主要评估基准包括：

BrowseComp-en / BrowseComp-zh：OpenAI 引入的最具挑战性的基准之一，评估 AI agent 在互联网上定位复杂、多方面信息的熟练度，需要复杂的浏览策略和推理能力。

GAIA：一个需要多模态和工具使用能力的通用基准，本文仅使用其中 103 个纯文本验证子集。
Xbench-DeepSearch：一个新的、动态的、专业对齐的基准，专注于评估 AI agent 的工具使用能力，特别是在深度信息检索和复杂搜索任务中。

2、基线方法：

Direct Inference (直接推理)：模型仅依靠其内部知识回答问题，包括 Qwen-2.5、GPT-4o、GPT-4.1、QwQ-32B、o4-mini 和 DeepSeek-R1 等。
Proprietary Browsing Agents (专有浏览 agent)：如 OpenAI DeepResearch、Grok-DeepResearch 和 Doubao with Deep Think and Search。
Open-source Agents (开源 agent)：包括 Search-o1、WebThinker、R1-Searcher 和 WebDancer 等，它们大多采用 ReAct 框架。

3、评估指标：默认使用 pass@k 评估，并报告 pass@1。准确率通过 LLM 作为判断器来确定。

实验结果

直接推理的不足：所有直接推理模型（包括强大的专有模型 GPT-4.1）在 BrowseComp-en/zh 上的表现都非常差，准确率通常接近于零，这表明这些任务需要与外部信息源（如 web）动态交互才能收集到必要证据。
WebSailor 确立开源 agent 的新 SOTA：WebSailor 在开源 agent 中树立了新标杆，在极具挑战性的 BrowseComp-en/zh 基准上优势最为显著。这验证了其核心假设：在合成的复杂、难以降低不确定性数据上训练，赋予了 agent 鲁棒且可泛化的推理策略。例如，WebSailor-7B 在 BrowseComp-en 上实现了 6.7% 的准确率，果断超越了基于更大 32B 模型的 agent（如 WebDancer-32B 和 WebThinker-RL）。
与专有系统持平：WebSailor 的最重要发现之一是它弥补了开源系统与领先专有系统之间的差距。在 BrowseComp-zh 上，WebSailor-72B 的性能与顶尖专有 agent Doubao 持平。尽管 SOTA 系统 DeepResearch 仍保持领先，但 WebSailor 的表现标志着一个重要里程碑，证明通过复杂的数据合成和 DUPO 等有针对性的训练策略，开源模型能够提升到以前专有系统独有的能力水平。
GAIA 性能：尽管 WebSailor 在所有基准上表现强劲，但在 GAIA 上的优势更为适度。研究人员手动检查发现，这部分是由于 GAIA 任务中很大一部分需要数学和计算能力，而 WebSailor 未专门针对这些能力进行优化。

分析

1、SailorFog-QA 的复杂性 (Figure 3)：对工具调用次数的定量分析显示，WebSailor 的专家生成训练数据呈现出长尾分布，大量样本需要超过 5 次甚至 20 次以上的工具调用。这种分布与 BrowseComp-en 基准本身的复杂性特征紧密匹配，而 WebDancer 数据集则严重偏向简单性（超过 50% 的轨迹只要求两次工具调用，几乎没有超过十次的）。

2、SailorFog-QA 的通过率 (Table 2)：在过滤之前，SailorFog-QA 的数据难度显著高于 WebDancer 训练集。尽管难度低于 BrowseComp-en，但 SailorFog-QA 的低准确率部分归因于其固有的难度，也因为信息歧义可能导致没有唯一的确定答案。

3、与简单任务的兼容性 (Figure 4)：尽管 WebSailor 专门在高难度数据上训练，但它在 SimpleQA (Level 1 任务) 基准测试中的表现超越了所有其他方法，这表明其具有良好的向下兼容性和在更简单任务上的有效性。

4、Pass@1 与 Pass@3 的比较 (Figure 5)：RL 训练对所有基准都带来了显著提升，尤其是在高难度 BrowseComp-en/zh 任务上增益最大。RL 训练通过强化成功策略和裁剪无效策略，直接解决了这些复杂任务中 agent 轨迹长且复杂导致的不稳定问题，从而显著增强了模型的稳定性。Pass@1 的提升比例远大于 Pass@3，表明 RL 显著提高了样本效率。

5、冷启动的影响 (Figure 6)：RFT 冷启动策略被证明是至关重要的。尽管直接 RL 训练在 Pass@1 准确率上显示出较大的增长，但经过 RFT 冷启动的模型最终收敛性能显著更优。这种性能差距在 BrowseComp-en 上更为明显，表明如果没有 RFT 冷启动，模型极难通过自我探索获得复杂推理模式。

4. 总结

WebSailor 从信息寻求中不确定性降低的角度，深入分析了以往开源 web agent 未能达到专有系统水平的原因。该论文的贡献涵盖了全面的训练数据合成、RFT 冷启动以及 RL 算法效率提升，形成了一个完整的 agentic 后训练流程。WebSailor 在简单和复杂信息寻求基准测试上均表现出强大的性能，其推理和工具使用能力超越了人类水平。

未来，agentic 后训练的关键在于进一步定义更复杂、不确定性更高的任务，以及实现更有效和高效的 RL 训练。如何自动化构建更难、更复杂的数据，将是后续巨头逐鹿AGI的一个关键点。

为了克服当前同步 RL 框架的效率瓶颈，未来的工作可以考虑向异步训练框架迁移。此外，可以探索如何进一步增强开源 agent 在信息寻求领域之外的通用“超人”能力。针对模型在长 inference 长度下性能下降以及“过度思考”的倾向，也是未来值得关注的改进方向。

链载Ai

目录