迷雾重重、线索零碎的复杂网络查询,从此有了开源解决方案
在信息爆炸的互联网世界,你是否曾遇到这样的问题:明明知道答案就在某个角落,却因线索过于模糊、路径过于复杂而束手无策? 这类高不确定性查询长期困扰着用户和开发者——直到阿里通义实验室发布WebSailor,这一开源网络智能体在复杂推理任务上刷新多项纪录,甚至超越多个闭源模型!
GitHub项目地址:https://github.com/Alibaba-NLP/WebAgent 论文地址:https://arxiv.org/pdf/2507.02592
01 开源智能体的重大突破2025年7月7日,阿里巴巴通义实验室正式开源网络智能体WebSailor,这一创新方案在多个高难度评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。 在OpenAI发布的BrowseComp评测集上,WebSailor-72B在英文和中文版本中分别取得12.0%和30.1%的准确率,远超此前开源系统3.8%的水平。 更令人振奋的是,WebSailor不仅超越DeepSeek R1、WebThinker等开源方案,甚至在部分指标上超越了Grok-3等闭源模型,仅次于OpenAI DeepResearch。 这一突破标志着开源智能体首次具备处理“信息迷雾”的能力,缩小了与闭源顶尖系统间的差距。 02 破解“地狱级”难题为什么传统开源模型在复杂任务上屡屡碰壁?通义团队发现核心症结在于面对高不确定性任务时的系统性推理能力缺失。 研究团队将信息搜索任务按难度分为三个层级: - Level-1(新手模式):如查询“某城市人口”,可通过单次搜索解决
- Level-2(进阶模式):如多跳问答,有清晰解决路径
- Level-3(地狱模式):线索模糊、路径不明的高不确定性任务
WebSailor瞄准的正是最棘手的Level-3任务。例如:“5世纪中期去世的某基督教诗歌作者,其死亡年份恰好是重建古代环境条件的科学年表最后一年。该年表名称是什么?” 这类问题答案线索被拆解得极其零碎,散布在不同类型和时期的模糊信息源中,形成巨大的“信息迷雾网”,需要数十步推理才能解决。 03 三大技术创新创新一:SailorFog-QA——地狱级训练场WebSailor团队开发了SailorFog-QA数据合成方法,专门模拟高不确定性环境: - 知识图谱随机游走:从维基数据冷门实体出发,随机扩展构建非线性关系网络
- 信息模糊化处理:将具体日期改为“21世纪初”,人名变为“以F开头的知名人士”,数值替换为“市场份额不足1%”等定性描述
这种方法生成的题目有多难?内部测试中,某些题目连OpenAI o3模型都需调用40+次工具才能解决! 创新二:推理重构——化繁为简的艺术研究团队发现直接模仿开源大模型(如QwQ-32B、DeepSeek-R1)的冗长推理反而限制模型发展。为此他们开创了“推理重构”技术:
这种方法既保留复杂推理精髓,又避免冗长思维链挤爆上下文窗口,特别适合数十步的长周期任务。 创新三:DUPO——强化学习新范式WebSailor训练采用两阶段策略: - RFT冷启动:仅用2000+高质量样本教会模型基础工具使用和推理框架
DUPO算法核心在于: 这种设计如同明智的教练,让学生专注练习未掌握的技能,极大提升学习效率。 04 超凡性能表现WebSailor在多个维度展现惊人能力: - 复杂任务:在最具挑战性的BrowseComp-en上,WebSailor-72B达到12.0%准确率(此前开源最佳仅3.8%)
- 小模型大能量:WebSailor-7B(7B参数)超越32B参数的竞争系统,达6.7%准确率
- 中文场景优势:在BrowseComp-zh上以30.1%准确率追平DouBao(26.0%)等闭源系统
尽管专注高难任务训练,WebSailor在简单任务上同样出色:在SimpleQA数据集上,WebSailor-72B取得93.5%的准确率,超过所有对比方案。 05 开源生态新可能作为通义实验室“Web智能体”系列的第三项重大发布(前有WebWalker、WebDancer),WebSailor实现了从评测构建→策略学习→闭源追近的完整进化。 项目已在GitHub开源,包含: 开发者可借此构建能处理复杂信息检索的AI应用,如: 通义团队表示,将继续发展“基于浏览器的原生智能体框架”,向开放式、跨模态的复杂推理场景进军。 |