链载Ai

标题: Agent智能体 | 阿里开源Agentic信息搜索智能体:WebDancer [打印本页]

作者: 链载Ai    时间: 昨天 19:02
标题: Agent智能体 | 阿里开源Agentic信息搜索智能体:WebDancer

目录

0. 引言

梅子金黄杏子肥,麦花雪白菜花稀。小伙伴们好,今天继续Agent智能体专题。前文已经介绍阿里通义实验室WebAgent项目下的一项成果:WebSailor。今天继续追踪其之前的工作成果:WebDancer。在WebDancer中提出了一种构建端到端Agentic信息检索agent范式,该范式以数据中心并结合特定的训练方案,旨在解决现实世界中复杂问题所需的深入信息检索和多步推理能力。后文会继续补充通义实验室WebAgent项目下更早期的WebWalker,并对比WebWalker、WebDancer和WebSailor。感兴趣的小伙伴可以留意公众号"小窗幽记机器学习"。

论文: https://arxiv.org/abs/2505.22648

GitHub仓库: https://github.com/Alibaba-NLP/WebAgent/

更多AI相关欢迎关注公众号"小窗幽记机器学习":

1. 简介

解决复杂的现实世界问题需要深入的信息检索和多步推理。尽管Agentic系统(例如Deep Research)在自主多步研究方面展现了潜力,但仍存在挑战。WebDancer提出了一种连贯的范式来构建端到端Agentic信息检索agent,该范式从数据和训练方法出发。具体来说,该方法包含四个关键阶段:

WebDancer作为一个基于ReAct框架的web agent(WebSailo也是基于ReAct框架),在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出色,从而验证了其训练范式的有效性。


赶时间的小伙伴可以通过以下QA方式快速了解WebDancer的核心:

Q1: 这篇文章想要解决什么问题?

A1:这篇文章旨在解决构建自主信息检索agent所面临的一系列挑战。具体包括:

Q2: 这篇文章如何解决这些问题?

A2:通过WebDancer提出以数据为中心并与特定训练方法相结合的协同范式来解决构建端到端智能信息检索时面临的问题。

1、浏览数据构建针对现有Web QA数据集深度不足和规模较小的问题,WebDancer通过两种方式自动合成高质量数据集:

2、轨迹采样(Trajectories Sampling)为构建支持长期推理和任务分解的可靠轨迹数据。

3、训练角度:针对现有SFT和off-policy RL泛化问题及on-policy RL早期训练仅关注工具使用的问题,WebDancer采用两阶段训练方法

Q3: WebDancer效果如何?

A3:实验评估显示,WebDancer在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出强大的性能

Q4: WebDancer还有哪些不足?

A4:尽管WebDancer框架取得了可喜的成果,但仍存在以下局限性:


2. 方法

WebDancer的构建遵循一个系统的4阶段pipeline。

2.1 QA对构建

第一步:构建多样且具挑战性的深度信息检索QA对。对这些问答对的主要有如下要求:(1)问题类型的多样性,以及(2)任务复杂度的提升,这可以通过解决问题所需的交互步骤数量来衡量。与以往主要包含2-3步即可解决的浅层查询的数据集不同,WebDancer的目标是同时提升多跳推理的规模和深度。为此,开发了以下两个数据集:

Figure 1:两种网页数据生成流程。对于CRAWLQA,首先收集权威网站的根URL,然后通过系统性点击和收集根页面下的子链接,模拟人类行为,收集子页面。根据预设规则,利用 GPT-4o 基于收集到的信息生成合成问答对。对于E2HQA,初始问题 Q1 会在每次迭代 i 时,利用从实体 Ei 检索到的新信息 Ci 进行演化,使任务复杂度逐步提升,从简单实例扩展到更具挑战性的实例。使用 GPT-4o 重写问题,直到迭代达到 n 次。

2.2 轨迹采样

第二步:从QA对中采样高质量轨迹。具体来说,WebDancer 的轨迹采样过程主要包括以下几个方面:

1、智能体设置
WebDancer基于ReAct,ReAct轨迹由多轮“思考-动作-观察”(Thought-Action-Observation)组成,其中大模型会生成自由形式的“思考”(Thought)以实现多种目的,并生成结构化的“动作”(Action)与环境(工具)交互,进而获得“观察”(Observation)反馈。假设智能体在时间的执行循环可表示为,其中表示思考,表示动作,表示观察。可以进一步表示为,其中是动作名称,是执行该动作所需的参数。,对应于深度信息检索中最重要的两类智能体工具。对于search动作,包括query和filter_year;对于visit动作,包括goal和url_link。search动作的观察结果包括前10条标题和摘要,而visit动作的观察结果是由摘要模型生成的证据和摘要。当动作为answer时,迭代终止。

历史轨迹可表示为:

在时间步,智能体从网页环境接收观察,并生成思考,采取动作,遵循策略。

2、思维链(CoT)方法
思维链(Chain-of-Thought, CoT)方法通过逐步推理过程显著提升了大模型的推理能力,这对应于智能体系统中的思考部分。该过程对于智能体执行至关重要,使其能够进行高级工作流规划、自我反思、信息提取、自适应动作规划和精准的动作(工具使用)。

3、短CoT与长CoT的构建
智能体模型将CoT生成能力内化为模型的主动行为组件。CoT的长度及其思维模式对性能起着关键作用。分别提出了两种简单而有效的方法来构建短CoT和长CoT。

对于短CoT,直接利用ReAct框架,使用强大的模型GPT-4o收集轨迹。对于长CoT,为大推理模型(LRM)QwQ-Plus在每一步顺序提供历史动作(actions)和观察(observations),使其能够自主决定下一步动作。值得注意的是,在进一步推理时,不提供之前的思考内容,因为LRM QwQ-Plus在训练时未接触过多步推理输入。然而,在生成的轨迹中,保留每一步的思考内容,因为它们是有价值的监督信号。LRM的中间推理过程,记为<reasoning_content>,被记录为当前步骤的思考。每个构建的QA实例会进行最多N次拒绝采样,以确保质量和连贯性。

4、轨迹过滤
采用三阶段漏斗式轨迹过滤框架,包括有效性控制、正确性验证和质量评估。

在SFT数据集中未出现的QA对,可以在强化学习阶段有效利用。

2.3 训练

在获取ReAct格式的高质量轨迹后,可将其无缝整合到SFT(监督微调)训练阶段。此外,在早期阶段被过滤掉的、不含轨迹的问答(QA)数据,可以在强化学习(RL)阶段得到有效利用。首先通过SFT冷启动训练一个策略模型,然后通过RL进行泛化。整体训练框架如图2所示。

Figure 2:训练框架概览。(I) 用于冷启动的SFT阶段利用了重构格式的ReAct数据集,其中的思考部分分别包含了短链和长链的思维链(CoT)。(II) RL阶段在SFT阶段未使用的QA对上,通过工具调用执行推演(rollouts),并使用DAPO算法优化策略。

监督微调(SFT)

为捕获完整的智能体轨迹,通过在获取的决策轨迹上进行监督微调来训练策略模型。冷启动增强了模型耦合多个推理和动作步骤的能力,向其传授一种推理与动作交替的行为范式,同时尽可能保留其原有的推理能力。

强化学习

SFT阶段的基础上,RL采用解耦裁剪与动态采样策略优化(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)算法,来改进和激励策略模型交错执行“思考-动作-观察”序列的能力。

3. 实验结果

WebDancer在两个既定的深度信息检索基准测试GAIA和WebWalkerQA上进行了评估。评估采用LLM-as-Judges范式,使用Pass@1指标。

4. 总结

阿里通义提出了一个系统的、端到端的多步信息检索web agent构建框架WebDancer。 通过引入可扩展的QA数据合成方法(CRAWLQA和E2HQA)以及结合监督微调(SFT)和on-policy强化学习(RL,特别是DAPO算法)的两阶段训练pipeline。WebDancer在GAIA和WebWalkerQA等基准测试上取得了出色的性能,验证了其训练策略的有效性。这些发现为agent训练的关键方面提供了宝贵的见解,并为开发更复杂的agentic模型以应对复杂现实世界信息检索任务提供了可操作且系统化的途径。

但是仍有不足,未来可改进的方向或要点包括:

5. WebDancer与WebSailor的差异

WebSailor相对于WebDancer,可以看作是一种继承与显著提升的关系。两者都致力于构建自主信息寻求的网页代理,并且都基于ReAct框架

WebSailor在WebDancer的基础上,主要在以下几个方面进行了增强和发展

1、任务复杂度和不确定性处理

2、训练数据合成与轨迹生成

3、强化学习训练算法

4、性能表现

因此,WebSailor是WebDancer的一个演进版本,在处理更复杂的网页信息寻求任务方面表现出更卓越的能力,这主要归功于其创新的数据合成方法、推理轨迹重构技术以及更高效的强化学习算法。WebDancer在WebSailor的实验中被用作重要的开源代理基线进行比较,进一步突显了WebSailor的进步。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5