链载Ai

标题: Agent智能体 | 深入解读阿里开源Web Agent新王者:WebSailor [打印本页]

作者: 链载Ai    时间: 昨天 19:00
标题: Agent智能体 | 深入解读阿里开源Web Agent新王者:WebSailor

目录

0. 引言

随着大语言模型(LLMs)训练的不断深入,如何跨越人类认知局限性已成为一个重要前沿。现有研究表明,专有 agentic 系统,如 DeepResearch,已在 BrowseComp(专门用于评测浏览器Agent的测试基准)等极其复杂的信息搜索基准测试中展现出超人能力,这在以往是无法实现的。研究人员普遍认为,其成功源于多数开源模型所不具备的复杂推理模式:即在广阔信息环境中系统性地降低极端不确定性的能力。为此,阿里巴巴通义实验室提出了WebSailor,一个完整的后训练方法,旨在赋予开源 agent 这种关键能力。

原始论文: https://arxiv.org/abs/2507.02592

GitHub仓库: https://github.com/Alibaba-NLP/WebAgent/

PS:WebAgent项目下还有WebWalker和WebDancer,后续补充解读,感兴趣的小伙伴可以留意公众号"小窗幽记机器学习":

1. 简介

赶时间的小伙伴可以通过以下QA问答的方式快速了解WebSailor的重点。

Q1: 这篇文章想要解决什么问题?

文章旨在解决当前开源 LLMs 和 web agent 在复杂信息寻求任务(如 BrowseComp-en/zh)上表现不足的问题,它们在此类基准测试中通常准确率接近于零。真的是难于上青天!

那为啥普遍表现如此差强人意? 一句话,没学过,太难了!现有的训练范式主要关注 Level 1(低不确定性)和 Level 2(有明确解决路径)的任务,未能让模型接触到 Level 3 的挑战。Level 3 任务要求在复杂的、没有预定义解决方案路径的信息环境中进行鲁棒的组合泛化。因此,模型未能发展出处理这些复杂任务所需的多步骤推理能力。

因此,研究的核心问题是如何向开源 agent 灌输这种高级的、降低不确定性的推理能力。

Q2: 这篇文章如何解决这些问题?

文章提出WebSailor,一个全面的后训练方法,旨在向Agent灌输这种在海量信息中系统性降低极端不确定性的关键能力。

WebSailor 的核心方法包括:

Agent 采用ReAct 框架,在每次迭代中生成 Thought、执行 Action(工具调用)并接收 Observation。它使用search工具(访问 Google 搜索引擎)和visit工具(访问特定网页并提取相关信息)进行信息检索。

Q3: 文章所提出方法的效果如何?

Q4: 文章所提方法还有哪些不足?

更多大模型相关欢迎关注公众号"小窗幽记机器学习"。

2. 方法

WebSailor 涵盖了从数据构建到训练优化的完整流程,为 LLM agent 注入了强推理能力。

Agent 框架

WebSailor 采用ReAct 框架,该框架允许 agent 在接收问题后进行多次 Thought-Action-Observation 迭代。在每次迭代中,LLM 根据现有 context 生成一个 Thought,然后执行一个可解析的 Action(工具调用),环境随后返回一个 Observation。

Action 空间包括生成最终答案和调用两种工具:

一次完整的 agent 轨迹定义为:

其中分别表示第 i 轮的 thought、action 和 observation。对于step t,是策略模型基于过往上下文的采样结果:

大规模训练数据合成 (SailorFog-QA)

任务等级划分

论文根据信息寻求任务的内在不确定性及降低不确定性的复杂性,将其分为三个等级:

Figure 2:信息检索任务可以分为三个层级。第1级具有相对简单的逻辑结构,可以直接回答,或通过一次简单的工具调用得到答案。第2级类似于多跳问题,需要通过一系列固定的推理步骤来获得解决方案。第3级在经过混淆处理后,表现出最复杂且多变的结构,这使得其难以通过人工方式进行定义,并且其固有的不确定性也难以降低。

SailorFog-QA数据集合成

SailorFog-QA 是一个用于训练模型处理高不确定性难以降低不确定性的复杂信息查找任务(即 Level 3 任务)的数据集。其合成过程主要包括两个方面:构建复杂的信息图谱作为结构基础,以及通过子图采样和信息模糊化生成高不确定性问题。

具体合成步骤如下:

  1. 构建难以降低不确定性的结构基础







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5