返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

字节开源 GUI Agent 工具:UI-TARS 全解析,又一Manus平替

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">Dev Agent
网传字节内部 Dev Infra 团队开发了一款公司内部使用的 Dev Agent 智能体产品,功能类似 Manus,该 Agent 通过集成内网知识库和多种内部工具实现调研、开发、数据分析等任务。
目前该项目处于实验阶段,仅面向该部门员工进行内测,属于内部工具,不支持外部用户使用。


图片


UI-TARS

今天来说一下字节开源的另外一个项目 UI-TARS

UI-TARS 是由字节推出的一款开源 GUI Agent 模型,能够通过自然语言理解和处理来控制计算机界面。这款工具代表了人工智能与人机交互领域的重大突破,为用户提供了一种全新的、更加自然的方式来操作计算机系统。
什么是 UI-TARS?
UI-TARS 的全称是 User Interface - Task Automation and Reasoning System(用户界面-任务自动化和推理系统)。它是一个创新的原生 GUI 代理模型,设计用于通过先进的 AI 能力增强与图形用户界面的交互。与传统的模块化系统不同,UI-TARS 将感知、推理、接地和记忆等基本元素整合到一个统一的视觉-语言模型 (VLM) 中,实现了无需依赖预先建立的工作流或人工干预的全面任务自动化。


核心特性

感知能力
  • 全面的 GUI 理解:UI-TARS 能解释各种类型的输入,如文本和图像,形成对用户界面的完整理解。

  • 动态交互:模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。

  • 高密度信息处理:有效处理复杂布局和多元素界面,提取精确元数据。


行动能力

  • 统一的行动空间:跨平台(桌面、移动和网络)的标准化动作定义。

  • 精确定位与互动:通过大规模行动轨迹训练,实现对特定 GUI 元素的精确定位和交互。

  • 平台特定动作:支持热键、长按和平台特定手势等额外动作。



Send a twitter with the content "hello world"

推理能力
  • 系统 1 和系统 2 推理:结合快速、直觉的响应与深思熟虑的高级规划,用于处理复杂任务。

  • 任务分解与反思:支持多步规划、反思和错误修正,确保任务执行的稳健性。

  • 基于"思考"的决策:在每个行动前生成明确的"思考"过程,将感知和行动与深思熟虑的决策联系起来。


记忆能力
  • 短期记忆:捕获任务特定上下文,增强情境感知能力。

  • 长期记忆:保留历史交互和知识,改进决策过程。


技术突破
UI-TARS 在多个领域实现了技术突破:
1. 增强的 GUI 截图感知:通过大规模数据集训练,专门用于提取元素类型、边界框和文本内容等元数据。
2. 统一行动建模:标准化跨平台语义等效动作,提高多步执行能力。
3. 系统2推理:注入各种推理模式(如任务分解、长期一致性、里程碑识别、试错和反思)到模型中。

4. 反思性在线痕迹学习:通过自动收集、过滤和反思性精炼新的交互轨迹,解决数据瓶颈问题。


Get the current weather in SF using the web browser

性能表现
在多项评估中,UI-TARS 展现了卓越的性能:
  • 在 OSWorld 基准测试中,UI-TARS-72B 在 50 步中取得了 24.6 的得分,在 15 步中取得了 22.7 的得分,优于 Claude 的 22.0 和 14.9。

  • 在 AndroidWorld 中,UI-TARS 取得了 46.6 的得分,超过了 GPT-4o 的 34.5。

  • 在 VisualWebBench 中,UI-TARS-72B 得分 82.8,高于 GPT-4o 的 78.5。

  • 在 ScreenSpot Pro 上取得了 38.1(SOTA)的成绩。


这些结果证明了 UI-TARS 在感知、接地和 GUI 任务执行方面的卓越能力。

使用 UI-TARS Desktop
字节跳动为用户提供了 UI-TARS Desktop 应用,这是一个基于 UI-TARS(视觉-语言模型)的 GUI 代理应用程序,允许用户使用自然语言控制计算机。

UI-TARS Desktop 使用前可以做一些配置

开源资源
UI-TARS 相关资源全部开源:
GitHub 仓库:
[UI-TARS](https://github.com/bytedance/UI-TARS)
[UI-TARS-desktop](https://github.com/bytedance/UI-TARS-desktop)

虽然 UI-TARS 代表了 GUI 代理领域的重大进步,但未来发展方向指向集成主动和终身学习,让代理能够通过持续的真实世界交互自主驱动自己的学习。这将最小化人类干预,同时最大化泛化能力。
UI-TARS 是字节跳动在 GUI 代理领域的革命性创新,通过整合感知、行动、推理和记忆能力到一个可扩展和自适应的框架中,实现了超越现有系统的性能。它的开源发布不仅推动了 AI 驱动自动化的边界,也使其成为进一步探索和开发的可访问资源。UI-TARS 代表了从基于规则的系统向自适应原生模型的转变,为未来 GUI Agent的发展奠定了坚实基础。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ