通义开源WebSailor：超越DeepSeek R1，最接近闭源系统的网络智能体来了！ - 链载Ai

迷雾重重、线索零碎的复杂网络查询，从此有了开源解决方案

在信息爆炸的互联网世界，你是否曾遇到这样的问题：明明知道答案就在某个角落，却因线索过于模糊、路径过于复杂而束手无策？

这类高不确定性查询长期困扰着用户和开发者——直到阿里通义实验室发布WebSailor，这一开源网络智能体在复杂推理任务上刷新多项纪录，甚至超越多个闭源模型！

GitHub项目地址：https://github.com/Alibaba-NLP/WebAgent

论文地址：https://arxiv.org/pdf/2507.02592

01 开源智能体的重大突破

2025年7月7日，阿里巴巴通义实验室正式开源网络智能体WebSailor，这一创新方案在多个高难度评测中刷新了开源系统的最好成绩，成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

在OpenAI发布的BrowseComp评测集上，WebSailor-72B在英文和中文版本中分别取得12.0%和30.1%的准确率，远超此前开源系统3.8%的水平。

更令人振奋的是，WebSailor不仅超越DeepSeek R1、WebThinker等开源方案，甚至在部分指标上超越了Grok-3等闭源模型，仅次于OpenAI DeepResearch。

这一突破标志着开源智能体首次具备处理“信息迷雾”的能力，缩小了与闭源顶尖系统间的差距。

为什么传统开源模型在复杂任务上屡屡碰壁？通义团队发现核心症结在于面对高不确定性任务时的系统性推理能力缺失。

研究团队将信息搜索任务按难度分为三个层级：

WebSailor瞄准的正是最棘手的Level-3任务。例如：“5世纪中期去世的某基督教诗歌作者，其死亡年份恰好是重建古代环境条件的科学年表最后一年。该年表名称是什么？”

这类问题答案线索被拆解得极其零碎，散布在不同类型和时期的模糊信息源中，形成巨大的“信息迷雾网”，需要数十步推理才能解决。

WebSailor团队开发了SailorFog-QA数据合成方法，专门模拟高不确定性环境：

这种方法生成的题目有多难？内部测试中，某些题目连OpenAI o3模型都需调用40+次工具才能解决！

研究团队发现直接模仿开源大模型（如QwQ-32B、DeepSeek-R1）的冗长推理反而限制模型发展。为此他们开创了“推理重构”技术：

这种方法既保留复杂推理精髓，又避免冗长思维链挤爆上下文窗口，特别适合数十步的长周期任务。

WebSailor训练采用两阶段策略：

DUPO算法核心在于：

这种设计如同明智的教练，让学生专注练习未掌握的技能，极大提升学习效率。

WebSailor在多个维度展现惊人能力：

尽管专注高难任务训练，WebSailor在简单任务上同样出色：在SimpleQA数据集上，WebSailor-72B取得93.5%的准确率，超过所有对比方案。

作为通义实验室“Web智能体”系列的第三项重大发布（前有WebWalker、WebDancer），WebSailor实现了从评测构建→策略学习→闭源追近的完整进化。

项目已在GitHub开源，包含：

开发者可借此构建能处理复杂信息检索的AI应用，如：

通义团队表示，将继续发展“基于浏览器的原生智能体框架”，向开放式、跨模态的复杂推理场景进军。