链载Ai

标题: WebDancer:构建端到端Agentic信息搜索智能体 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: WebDancer:构建端到端Agentic信息搜索智能体


一、 为什么我们需要会上网的 AI ?

想象一下,我们在网上找资料,有时候问题很简单,一搜就能找到答案。但更多时候,问题是复杂的、多步骤的,比如需要我们先搜索一个概念,然后在搜索结果的某个网页里点击链接进去,再找到相关信息,甚至需要在多个页面之间跳转、比对,最后才能拼凑出最终的答案。这是一个需要深度信息搜索多步骤推理的过程。

传统的AI模型可能擅长回答基于已有知识库的问题,或者进行简单的搜索。但面对这种需要主动“探索”和“互动”的真实网络环境,它们往往显得力不从心。最近的一些研究,比如 OpenAI 的 Deep Research 和 x.ai 的 Grok DeepSearch,已经展示了通过端到端强化学习训练,构建具备强大信息搜索能力的智能体的潜力。然而,如何从零开始构建这样一个能够像人一样感知网络环境、做出决策并采取行动以完成复杂任务的网络智能体(Web Agent),仍然充满挑战。

挑战主要体现在几个方面:

正是在这样的背景下,这篇论文提出了 WebDancer 框架,旨在提供一个构建端到端自主信息搜索智能体的系统性指南

二、 核心内容:WebDancer 的四大支柱

WebDancer 的核心思想是构建一个能够自主在网上进行多步骤信息搜索的智能体。它抽象出了构建这样一个智能体的端到端流程,并从数据和训练阶段两个维度提出了解决方案。

论文最主要的贡献可以总结为以下四个关键阶段:

1. 浏览数据构建 (Browsing data construction):解决高质量、多样的训练数据问题。

2. 轨迹采样 (Trajectories sampling):从构建的数据中生成智能体执行任务的高质量“思考-行动-观察”序列。

3. 监督微调 (Supervised fine-tuning, SFT):利用采样到的轨迹数据对基础模型进行微调,实现有效的“冷启动”,让模型初步学会模仿智能体的行为模式。

4. 强化学习 (Reinforcement learning, RL):在 SFT 的基础上,通过强化学习进一步优化智能体的决策能力和泛化能力,使其在真实网络环境中表现更出色。

这个流程提供了一个系统化、端到端的构建长程信息搜索网络智能体的管线。 WebDancer 框架基于ReAct范式,这是一种将推理 (Reasoning)行动 (Acting)紧密耦合的方法,非常适合在交互式环境中进行有效学习和泛化。

三、 方法解析:数据、轨迹与两阶段训练

下面我们来详细解析一下 WebDancer 的具体方法。

3.1 深度信息搜索数据集合成

构建复杂且多样化的 QA 对是构建网络智能体的关键,无论采用 SFT 还是 RL。现有的大多数 QA 数据集往往比较“浅”,通常只需要一两步搜索就能解决。为了生成能够激发多步骤推理、目标分解和丰富的互动序列的复杂 QA 对,WebDancer 采用了两种自动合成高质量数据集的方法:

3.2 智能体轨迹拒绝采样

ReAct 框架是 WebDancer 的基础。一个 ReAct 轨迹包含多个思考-行动-观察 (Thought-Action-Observation)循环。智能体生成 Thought(自由形式的思考),Action(结构化的行动,用于与环境工具互动),并接收 Observation(来自环境的反馈)。这个过程迭代进行,直到任务完成,最终行动是answer。可能的行动包括search,visit, 和answer

高质量的轨迹数据对于 SFT 至关重要。 WebDancer 通过对 QA 数据应用轨迹拒绝采样 (Trajectory Rejection Sampling)来生成轨迹,并进一步进行过滤以提高数据质量。

思考链 (Chain-of-Thought, CoT)对于智能体的执行至关重要,它使得高层工作流规划、自我反思、信息提取和行动规划成为可能。论文探索了构建短 CoT长 CoT的方法。对于短 CoT,直接使用强大的模型(如 GPT-4o)在 ReAct 框架下生成轨迹。对于长 CoT,则顺序地向推理模型 (LRM) 提供历史行动和观察,让其自主决定下一步行动,并记录其中间推理过程作为当前的 Thought。生成的轨迹会进行拒绝采样,以确保质量和连贯性。

采样后的轨迹会通过一个三阶段漏斗式过滤框架进行筛选:

那些未能通过过滤的 QA 对(即不包含有效轨迹)可以在强化学习阶段得到有效利用。

3.3 多阶段多工具智能体学习

获取高质量的 ReAct 格式轨迹后,WebDancer 将训练分为两个阶段:

第一阶段:智能体监督微调 (Agent Supervised Fine Tuning, SFT)

第二阶段:智能体强化学习 (Agent Reinforcement Learning, RL)

四、 实验结果与分析:WebDancer 的表现如何?

论文在两个具有挑战性的网络信息搜索基准测试GAIAWebWalkerQA上评估了 WebDancer 的性能。评价指标采用Pass@1,这是一种常用的衡量智能体完成任务准确性的指标。

主要结果(Table 1):

在更具挑战性基准上的结果(Table 2):

深入分析(Section 5):

通过详细的实验和分析,论文不仅验证了 WebDancer 管线的有效性,也为未来的智能体训练提供了宝贵的洞察和可行的路径。

五、 启示:未来的方向

虽然 WebDancer 取得了令人鼓舞的成绩,但论文也坦诚地指出了当前框架的一些局限性未来的研究方向:

总的来说,WebDancer 提供了一个构建端到端多步信息搜索网络智能体的扎实框架,并通过实验验证了其两阶段训练策略的有效性。它为社区进一步开发更复杂的、能处理真实世界复杂信息搜索任务的智能体模型提供了宝贵的经验和清晰的路径。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;">







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5