从豆包手机助手看GUI Agent发展：从实验室到手机，AI开始真正“动手”操作世界

显示全部楼层

2025年，GUI Agent（Graphical User Interface Agent，图形界面智能体）已成为AI领域最火爆的方向之一。它让大模型不再只是“聊天机器人”，而是能真正“看懂”屏幕、理解界面、模拟人类操作（如点击、滑动、输入）的Agent。标志性事件是字节跳动推出的豆包手机（与努比亚合作，基于Z70 Ultra系列工程机），首发3万台瞬间售罄，二手价翻倍。这款“全球首款系统级AI手机”将GUI Agent深度嵌入操作系统，实现跨App自动化任务，如一句话规划旅行、比价下单、点外卖等，彻底颠覆了手机交互范式。

ByteDance's first Doubao-assisted AI phone sells out at $495 as ...

豆包手机的核心，正是字节的UI-TARS系列技术——纯视觉端到端GUI Agent，已迭代到UI-TARS-2，支持从GUI操作到代码执行、API调用的混合动作流。

GUI Agent是什么？为什么2025年爆发？

传统自动化（如RPA）依赖脚本，脆弱且不灵活。多模态大模型（VLM）兴起后，GUI Agent通过“截图输入 + 推理 + 动作输出”实现通用自动化。主要挑战：屏幕感知、动作grounding、长序列规划、跨平台兼容。

典型架构（如图所示）包括感知（屏幕解析）、规划（任务分解）、执行（模拟点击/输入）、反思（错误纠正）模块。

GUI Agents: Exploring the Future of Human-Computer Interaction

GUI Agents: Revolutionizing How We Automate User Interfaces

2025年，强化学习（RL）、多Agent协作、纯视觉端到端成为主流趋势，开源模型层出不穷，推动从桌面/手机到多设备编排。

三大代表性工作对比

维度	阿里 Mobile-Agent-v3 / GUI-Owl	字节 UI-TARS系列	微软 UFO³ / Galaxy
核心定位	跨平台多Agent协作 + 原生端到端VLM	纯视觉端到端 + 混合动作流	系统级API + 多设备编排（Windows为主）
输入模态	截图 + 多模态（OCR、图标）	纯截图（视觉唯一输入）	混合：UI树 + 视觉（OmniParser） + API
模型规模	GUI-Owl 7B~32B（Qwen2.5-VL基座）	2B（端侧）~72B（云端）	GPT系列 + 自研工具
动作空间	跨平台GUI + ADB	GUI原子操作 + 键鼠 + 终端 + API	UIA/Win32 + 键鼠 + 多设备协议
规划机制	多Agent（Manager/Worker/Reflector/Notetaker） + 反思 + RAG	System-2推理（Thought前置） + 多轮RL	HostAgent + AppAgent + 动态DAG（Galaxy）
亮点进展	2025年开源RL调优版，在OSWorld/AndroidWorld SOTA	2025迭代支持游戏/代码，豆包手机实际落地	2025 Galaxy实现异构设备协调
开源程度	模型/代码开源（GitHub: X-PLUG/MobileAgent）	全尺寸开源（Hugging Face）	MIT许可全开源（GitHub: microsoft/UFO）