0. 引言

梅子金黄杏子肥，麦花雪白菜花稀。小伙伴们好，今天继续Agent智能体专题。前文已经介绍阿里通义实验室WebAgent项目下的一项成果：WebSailor。今天继续追踪其之前的工作成果：WebDancer。在WebDancer中提出了一种构建端到端Agentic信息检索agent范式，该范式以数据中心并结合特定的训练方案，旨在解决现实世界中复杂问题所需的深入信息检索和多步推理能力。后文会继续补充通义实验室WebAgent项目下更早期的WebWalker，并对比WebWalker、WebDancer和WebSailor。感兴趣的小伙伴可以留意公众号"小窗幽记机器学习"。

论文： https://arxiv.org/abs/2505.22648

GitHub仓库： https://github.com/Alibaba-NLP/WebAgent/

更多AI相关欢迎关注公众号"小窗幽记机器学习"：

1. 简介

解决复杂的现实世界问题需要深入的信息检索和多步推理。尽管Agentic系统（例如Deep Research）在自主多步研究方面展现了潜力，但仍存在挑战。WebDancer提出了一种连贯的范式来构建端到端Agentic信息检索agent，该范式从数据和训练方法出发。具体来说，该方法包含四个关键阶段：

(1) 浏览数据构建
(2) 轨迹采样
(3) 用于有效冷启动的监督微调（SFT）
(4) 用于增强泛化能力的强化学习（RL）

WebDancer作为一个基于ReAct框架的web agent（WebSailo也是基于ReAct框架），在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出色，从而验证了其训练范式的有效性。

赶时间的小伙伴可以通过以下QA方式快速了解WebDancer的核心：

Q1: 这篇文章想要解决什么问题？

A1:这篇文章旨在解决构建自主信息检索agent所面临的一系列挑战。具体包括：

(1) 现有训练数据质量和复杂度不足。如何获取高质量、细粒度的浏览数据？这些数据需要反映多样化的用户意图和丰富的交互上下文；
(2) 难以构建支持长期推理和任务分解的可靠轨迹数据。为此需要构建支持长周期推理和任务分解的可靠轨迹；
(3) 现有训练范式在泛化能力和效率方面的局限性。为此需要设计可扩展和泛化能力强的训练策略，以使web agent在分布外（out-of-distribution）的web环境、复杂的交互模式和长期目标下表现稳健。传统的信息检索方法，无论是直接使用prompting engineering技术还是通过SFT或RL整合搜索/浏览器能力，都未能有效捕捉真实世界的复杂挑战，且训练和评估数据集相对简单。

Q2: 这篇文章如何解决这些问题？

A2:通过WebDancer提出以数据为中心并与特定训练方法相结合的协同范式来解决构建端到端智能信息检索时面临的问题。

1、浏览数据构建针对现有Web QA数据集深度不足和规模较小的问题，WebDancer通过两种方式自动合成高质量数据集：

CRAWLQA：通过抓取网页构建深度查询，模拟人类浏览行为，递归导航子页面并利用GPT-4o合成包含COUNT、MULTI-HOP、INTERSECTION等设计类型的问题。
E2HQA：通过“易到难”（easy-to-hard）的QA对合成，将简单问题迭代重构为复杂的多步问题，从而激励agent从弱到强的agency。

2、轨迹采样（Trajectories Sampling）为构建支持长期推理和任务分解的可靠轨迹数据。

基于 ReAct 范式。ReAct 轨迹由多个“思考-行动-观察”（Thought-Action-Observation）循环组成，其中语言模型生成自由形式的“思考”（Thought），然后是结构化的“行动”（Action）来与环境（工具）互动，并接收“观察”（Observation）反馈。
拒绝采样生成轨迹。WebDancer 通过拒绝采样（Rejection Sampling）来生成高质量的轨迹数据，每个问答实例会尝试多次以确保质量。
三阶段漏斗式过滤框架。为了进一步确保轨迹数据的质量，WebDancer 实施了一个严格的三阶段过滤机制：有效性控制、正确性验证、质量评估。

3、训练角度：针对现有SFT和off-policy RL泛化问题及on-policy RL早期训练仅关注工具使用的问题，WebDancer采用两阶段训练方法：

第一阶段：拒绝采样微调（Rejection Sampling Fine-Tuning, RFT）进行冷启动，以适应agentic任务和环境的格式指令遵循。
第二阶段：on-policy强化学习，采用Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) 算法，该算法的动态采样机制能有效利用SFT阶段未充分利用的QA对，提高数据效率和策略鲁棒性。

Q3: WebDancer效果如何？

A3:实验评估显示，WebDancer在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出强大的性能。

与不具备agentic能力的模型相比，WebDancer及其Agentic框架表现显著优异，凸显了主动信息检索和agentic决策的必要性。
在高度可扩展的ReAct框架下，WebDancer比基础的Vanilla ReAct基线在不同模型规模上取得了实质性提升。
在某些最佳情况下，WebDancer甚至超越了GPT-4o的性能。
在更具挑战性的BrowseComp（英）和BrowseComp-zh（中）数据集上，WebDancer展现出持续的强大性能，表明其在处理复杂推理和信息检索任务方面的鲁棒性和有效性。

Q4: WebDancer还有哪些不足？

A4:尽管WebDancer框架取得了可喜的成果，但仍存在以下局限性：

工具数量和类型有限：目前仅集成了“搜索”和“点击”两种基本信息检索工具。未来的工作可以考虑整合更复杂的工具，例如通过抽象浏览器功能和Python沙盒环境来与外部API交互。
任务泛化能力：当前实验主要集中在短答案信息检索任务上。一个全面的web agent还应具备文档级研究和生成长篇内容的能力，这在agentic任务中对奖励建模提出了显著挑战。
数据利用效率：尽管积累了大量的QA对和相应轨迹，但在RL阶段，由于计算和稳定性限制，只能利用一小部分数据。需要更高效的数据利用策略来充分利用数据集的丰富性。
高昂的Rollout成本：RL阶段涉及多轮工具调用和LLM completion，导致计算和时间开销巨大，限制了可扩展性并减缓了迭代开发。未来方向包括开发更高效的工具调用与模型completion集成机制。
混合思维模式：当前模型在单一数据集类型上训练（短CoT或长CoT），未来计划开发能动态控制推理长度的混合推理agent模型。
思维模式中的hallucination和过量行动（over-action）：在工具调用中可能出现hallucination，例如错误地调用不存在的工具。推理过程中也可能出现过量行动，即在确认答案后仍执行冗余操作。

2. 方法

WebDancer的构建遵循一个系统的4阶段pipeline。

2.1 QA对构建

第一步：构建多样且具挑战性的深度信息检索QA对。对这些问答对的主要有如下要求：（1）问题类型的多样性，以及（2）任务复杂度的提升，这可以通过解决问题所需的交互步骤数量来衡量。与以往主要包含2-3步即可解决的浅层查询的数据集不同，WebDancer的目标是同时提升多跳推理的规模和深度。为此，开发了以下两个数据集：

CRAWLQA：从ArXiv、GitHub、Wiki等官方和知识型网站收集根URL。通过递归地跟随每个根站点上的可访问超链接来模仿人类浏览行为，并利用GPT-4o从收集到的内容中合成QA对。为确保问题质量和相关性，LLM被提示生成特定类型的问题，如COUNT（计数）、MULTI-HOP（多跳）和INTERSECTION（交集）问题。
E2HQA：类似于反向构建策略，从SimpleQA风格的大型QA对开始，其中每个答案都是一个简洁的事实性实体。通过迭代地使用LLMs和搜索引擎将简单问题重构为需要多步推理的复杂问题，同时确保答案在问题重构过程中不变，以保持QA对的有效性。具体是首先从问题中选择一个实体，其中表示细化迭代的次数。然后，利用大模型基于该实体构建查询，通过搜索引擎检索与相关的信息。之后，用大模型将获得的内容重构为新查询，以替换原问题中的实体。该过程可表示为：。这样，新的问题需要先解决构建的子问题，才能找到原问题的答案。通过不断搜索，可以将最初的简单问题逐步转化为更复杂的多步问题。这种方法允许通过调整重构次数来控制解决问题所需的步骤数。

Figure 1：两种网页数据生成流程。对于CRAWLQA，首先收集权威网站的根URL，然后通过系统性点击和收集根页面下的子链接，模拟人类行为，收集子页面。根据预设规则，利用 GPT-4o 基于收集到的信息生成合成问答对。对于E2HQA，初始问题 Q1 会在每次迭代 i 时，利用从实体 Ei 检索到的新信息 Ci 进行演化，使任务复杂度逐步提升，从简单实例扩展到更具挑战性的实例。使用 GPT-4o 重写问题，直到迭代达到 n 次。

2.2 轨迹采样

第二步：从QA对中采样高质量轨迹。具体来说，WebDancer 的轨迹采样过程主要包括以下几个方面：

1、智能体设置
WebDancer基于ReAct，ReAct轨迹由多轮“思考-动作-观察”（Thought-Action-Observation）组成，其中大模型会生成自由形式的“思考”（Thought）以实现多种目的，并生成结构化的“动作”（Action）与环境（工具）交互，进而获得“观察”（Observation）反馈。假设智能体在时间的执行循环可表示为，其中表示思考，表示动作，表示观察。可以进一步表示为，其中是动作名称，是执行该动作所需的参数。，对应于深度信息检索中最重要的两类智能体工具。对于search动作，包括query和filter_year；对于visit动作，包括goal和url_link。search动作的观察结果包括前10条标题和摘要，而visit动作的观察结果是由摘要模型生成的证据和摘要。当动作为answer时，迭代终止。

历史轨迹可表示为：

在时间步，智能体从网页环境接收观察，并生成思考，采取动作，遵循策略。

2、思维链（CoT）方法
思维链（Chain-of-Thought, CoT）方法通过逐步推理过程显著提升了大模型的推理能力，这对应于智能体系统中的思考部分。该过程对于智能体执行至关重要，使其能够进行高级工作流规划、自我反思、信息提取、自适应动作规划和精准的动作（工具使用）。

3、短CoT与长CoT的构建
智能体模型将CoT生成能力内化为模型的主动行为组件。CoT的长度及其思维模式对性能起着关键作用。分别提出了两种简单而有效的方法来构建短CoT和长CoT。

对于短CoT，直接利用ReAct框架，使用强大的模型GPT-4o收集轨迹。对于长CoT，为大推理模型（LRM）QwQ-Plus在每一步顺序提供历史动作（actions）和观察（observations），使其能够自主决定下一步动作。值得注意的是，在进一步推理时，不提供之前的思考内容，因为LRM QwQ-Plus在训练时未接触过多步推理输入。然而，在生成的轨迹中，保留每一步的思考内容，因为它们是有价值的监督信号。LRM的中间推理过程，记为<reasoning_content>，被记录为当前步骤的思考。每个构建的QA实例会进行最多N次拒绝采样，以确保质量和连贯性。

4、轨迹过滤
采用三阶段漏斗式轨迹过滤框架，包括有效性控制、正确性验证和质量评估。

有效性控制：在长内容条件下，直接提示大模型以ReAct格式生成响应，可能导致不符合指令的情况。此类数据将被丢弃。
正确性验证：只保留正确的结果，并使用GPT-4o进行准确判断。
质量评估：首先应用规则，过滤掉包含两步以上动作的轨迹，确保无幻觉、无严重重复。随后，基于提示进一步过滤，保留满足以下三项标准的轨迹：信息非冗余、目标一致、逻辑推理与准确性。

在SFT数据集中未出现的QA对，可以在强化学习阶段有效利用。

2.3 训练

在获取ReAct格式的高质量轨迹后，可将其无缝整合到SFT（监督微调）训练阶段。此外，在早期阶段被过滤掉的、不含轨迹的问答（QA）数据，可以在强化学习（RL）阶段得到有效利用。首先通过SFT冷启动训练一个策略模型，然后通过RL进行泛化。整体训练框架如图2所示。

Figure 2：训练框架概览。(I) 用于冷启动的SFT阶段利用了重构格式的ReAct数据集，其中的思考部分分别包含了短链和长链的思维链（CoT）。(II) RL阶段在SFT阶段未使用的QA对上，通过工具调用执行推演（rollouts），并使用DAPO算法优化策略。

监督微调（SFT）

为捕获完整的智能体轨迹，通过在获取的决策轨迹上进行监督微调来训练策略模型。冷启动增强了模型耦合多个推理和动作步骤的能力，向其传授一种推理与动作交替的行为范式，同时尽可能保留其原有的推理能力。

SFT阶段旨在通过在获取的高质量ReAct格式决策轨迹上训练策略模型来实现“冷启动”。
ReAct格式中，Thought部分被<think>和</think>包围，Action部分被<tool_call>和</tool_call>包围，Observation部分被<tool_response>和</tool_response>包围，最终的Answer被<answer>和</answer>包围。
在agentic世界建模任务中，SFT会屏蔽来自observation的损失贡献，以避免外部反馈的干扰，这有助于提高性能和鲁棒性。

强化学习

SFT阶段的基础上，RL采用解耦裁剪与动态采样策略优化（Decoupled Clip and Dynamic Sampling Policy Optimization，DAPO）算法，来改进和激励策略模型交错执行“思考-动作-观察”序列的能力。

RL阶段旨在将agency能力内化到推理模型中，通过基于结果的奖励来增强其多轮、多工具使用能力。
采用解耦裁剪与动态采样策略优化（DAPO）算法，以优化策略，使其在奖励模型下能产生更高奖励的输出。DAPO算法通过最大化特定目标函数来优化策略。对于数据分布中的每个问答对，DAPO会采样一组候选的智能体执行，然后更新策略以最大化目标函数。动态采样机制对准确率等于1和0的提示进行过采样和过滤，确保agent从高质量信号中学习，并有效忽略无效或嘈杂的合成样本。

Agentic Action Rollout：在ReAct框架内，每个agentic执行回合从生成Thought(由<think>和</think>包围)开始，接着是Action名称和参数(由<tool_call>和</tool_call>包围)。这些组件被迭代地用于与真实世界的搜索环境交互，产生一个作为反馈的观察结果Observation(由<tool_response>和</tool_response>包围)。整个交互回合从<think>到</tool_response>。Rollout在生成最终答案<answer>和</answer>后结束。
奖励设计：奖励系统主要由格式分数（score_format）和答案分数（score_answer）组成。由于格式一致性在RFT阶段已大部分解决，score_format（二进制，仅当整个输出严格符合所需格式且所有json格式的工具调用有效时为1）权重较小。score_answer（二进制，当LLM-as-Judge Mj判断回答正确时为1）权重较大。考虑到QA答案本质上是不可验证的，尽管响应简短，但无法用基于规则的F1/EM指标可靠评估，并且最终评估依赖于“LLM-as-Judge”（以大语言模型为裁判），因此选择采用基于模型的提示词评估作为答案的奖励信号。score_answer也是二元的，仅当响应被LLM判断为正确时，其值才赋为1。最终奖励函数为。

3. 实验结果

WebDancer在两个既定的深度信息检索基准测试GAIA和WebWalkerQA上进行了评估。评估采用LLM-as-Judges范式，使用Pass@1指标。

主要结果：

不具备agentic能力的框架（No Agency），如Qwen-2.5-7B Base、Qwen-2.5-32B Base/RAG、Qwen-2.5-72B Base、GPT-4o Base和QwQ-32B Base/RAG，在GAIA和WebWalkerQA基准测试上表现不佳，这凸显了主动信息检索和agentic决策的必要性。
闭源Agentic系统，如OpenAI DR，通过端到端RL训练实现了最高分数。
在开源框架中，基于原生强大推理模型（如QwQ-32B）的agentic方法始终优于其非agentic对应模型，这表明利用推理专业模型构建agent的有效性。
在可扩展的ReAct框架下，WebDancer在不同模型规模上比Vanilla ReAct基线取得了显著的提升。值得注意的是，WebDancer在最佳情况下甚至超越了GPT-4o的性能，这验证了该方法即使在轻量级框架内也能显著增强agentic能力。

在更具挑战性基准上的结果：

WebDancer在BrowseComp（英语）和BrowseComp-zh（中文）这两个旨在反映复杂信息检索场景的数据集上，均展现出持续的强大性能。这表明其在处理困难推理和信息检索任务方面的鲁棒性和有效性。

详细分析：

数据效率：高质量的轨迹数据对agent的SFT至关重要。对构建的数据集（CRAWLQA和E2HQA）的消融研究表明，经过轨迹拒绝采样和过滤后获得的“Final”数据集在低数据量情况下表现优于其他数据集，强调了稳健过滤的重要性。
SFT对冷启动的重要性：实验表明，SFT对于agent任务中强大的多步多工具指令遵循能力至关重要。在仅进行RL训练的单一设置下，Pass@3性能受到显著限制，在GAIA上仅达到5%。
RL阶段的性能提升：RL阶段的Pass@3和Cons@3（评估三次独立尝试中正确响应数量的指标）随着训练步数的增加而持续改进。RL能够更有效地采样正确响应。
CoT知识迁移：强大的推理模型所使用的思维模式知识很难迁移到小型指令模型。由推理模型合成轨迹训练的推理模型能显著提高其推理性能。对于非推理模型，Long-CoT也表现良好，但可能导致更高的无效率，例如重复，甚至超出模型的context length，尤其是在小规模模型中。
RL促使agentic行为的出现：RL能够实现更长的推理过程和更复杂的agentic行动。在Qwen-32B上的结果显示，SFT导致更频繁的行动生成和扩展的推理序列，而RL框架则促进了更复杂的推理策略的出现，通过优化决策序列而非单步输出来学习延迟奖励和深入探索行动空间。
环境不稳定性：Web agent在动态、不断变化的环境中执行，这本身就难以稳定。调整解码温度对最终性能影响甚微，表明解码变异性本身并不能解释agent的不稳定性。性能波动主要归因于web环境本身的变化，凸显了真实世界agent部署的非平稳和开放性。

4. 总结

阿里通义提出了一个系统的、端到端的多步信息检索web agent构建框架WebDancer。通过引入可扩展的QA数据合成方法（CRAWLQA和E2HQA）以及结合监督微调（SFT）和on-policy强化学习（RL，特别是DAPO算法）的两阶段训练pipeline。WebDancer在GAIA和WebWalkerQA等基准测试上取得了出色的性能，验证了其训练策略的有效性。这些发现为agent训练的关键方面提供了宝贵的见解，并为开发更复杂的agentic模型以应对复杂现实世界信息检索任务提供了可操作且系统化的途径。

但是仍有不足，未来可改进的方向或要点包括：

丰富工具集：当前WebDancer仅集成了“搜索”和“点击”两种基本工具。未来可以集成更复杂的工具，例如抽象浏览器功能到模块化工具，或使用Python沙盒环境与外部API进行交互，以实现更通用和自主的agency。
拓展任务类型与奖励建模：当前主要关注短答案信息检索任务。未来应将其扩展到文档级研究和长篇内容生成等开放域任务，并研究如何设计更可靠和信息丰富的奖励信号以适应这些复杂任务。
提高数据利用效率：在RL阶段，由于计算和稳定性限制，大量高质量的QA对和轨迹未能被充分利用。需要探索更高效的数据利用策略，以充分发挥已收集数据集的潜力。
优化RL Rollout成本：RL阶段的计算和时间开销巨大。未来研究应侧重于开发更高效的机制来集成工具调用与模型completion，从而在不牺牲学习策略的前提下，降低Rollout时间和成本。
实现混合思维能力：目前模型通常只在单一CoT类型（短CoT或长CoT）上训练。未来可以开发一种混合推理agent模型，能够动态控制agent的推理长度，以适应不同任务的需求。
解决hallucination和过量行动：在工具调用过程中，hallucination和不必要的过量行动仍然是挑战。需要进一步研究机制来提高agent在推理和行动过程中的准确性和效率。

5. WebDancer与WebSailor的差异

WebSailor相对于WebDancer，可以看作是一种继承与显著提升的关系。两者都致力于构建自主信息寻求的网页代理，并且都基于ReAct框架。

WebSailor在WebDancer的基础上，主要在以下几个方面进行了增强和发展：

1、任务复杂度和不确定性处理：

WebDancer旨在评估LLM进行网页遍历的能力，并处理复杂、多步骤的网页交互查询。它通过“抓取式问答”（CRAWLQA）和“由易到难问答”（E2HQA）两种方式合成数据集。
WebSailor则专注于处理极端不确定性的复杂信息寻求任务。它引入了SailorFog-QA数据集，该数据集通过从互连知识结构中采样子图和信息模糊化技术生成，旨在创建高不确定性和难以降低不确定性的问题。与WebDancer的数据集相比，SailorFog-QA在工具调用次数的分布上表现出更长的尾部，意味着其任务需要更多、更复杂的交互步骤。

2、训练数据合成与轨迹生成：

WebDancer的问答对构建基于从网页抓取的信息和由易到难的问答合成。它还通过拒绝采样来确保轨迹质量，并区分了短链式思维（Short-CoT）和长链式思维（Long-CoT）。
WebSailor进一步优化了训练数据合成，其SailorFog-QA数据集能够自然地产生需要多步推理、组合分析和比较分析的复杂推理模式。此外，WebSailor提出了一种从专家大型推理模型（LRM）轨迹中重构推理的新方法，即利用LRM生成动作-观察轨迹，然后推断出简洁、面向行动的思维，以避免风格污染和上下文过载的问题，从而生成更清晰、有效的监督信号。

3、强化学习训练算法：

WebDancer在监督微调（SFT）之后采用了一种名为DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）的强化学习算法，通过动态采样机制来利用未充分利用的问答对，从而提高数据效率和策略鲁棒性。
WebSailor在此基础上提出了DUPO（Duplicating Sampling Policy Optimization）算法，它通过在训练前和训练过程中使用两种动态采样策略，显著提高了代理强化学习的效率和效果，解决了代理强化学习训练速度慢的问题。

4、性能表现：

WebDancer在GAIA和WebWalkerQA基准测试上表现强劲，甚至在某些情况下超越了GPT-4o。
WebSailor则在BrowseComp-en/zh等更具挑战性的基准测试上取得了显著领先，超越了所有开源代理，并达到了专有代理的性能水平，缩小了能力差距。即使是较小的WebSailor模型（如WebSailor-7B）也能够超越WebDancer等更大模型。

因此，WebSailor是WebDancer的一个演进版本，在处理更复杂的网页信息寻求任务方面表现出更卓越的能力，这主要归功于其创新的数据合成方法、推理轨迹重构技术以及更高效的强化学习算法。WebDancer在WebSailor的实验中被用作重要的开源代理基线进行比较，进一步突显了WebSailor的进步。

链载Ai

目录