|
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"> ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">Dev Agent网传字节内部 Dev Infra 团队开发了一款公司内部使用的 Dev Agent 智能体产品,功能类似 Manus,该 Agent 通过集成内网知识库和多种内部工具实现调研、开发、数据分析等任务。目前该项目处于实验阶段,仅面向该部门员工进行内测,属于内部工具,不支持外部用户使用。
今天来说一下字节开源的另外一个项目 UI-TARS UI-TARS 是由字节推出的一款开源 GUI Agent 模型,能够通过自然语言理解和处理来控制计算机界面。这款工具代表了人工智能与人机交互领域的重大突破,为用户提供了一种全新的、更加自然的方式来操作计算机系统。UI-TARS 的全称是 User Interface - Task Automation and Reasoning System(用户界面-任务自动化和推理系统)。它是一个创新的原生 GUI 代理模型,设计用于通过先进的 AI 能力增强与图形用户界面的交互。与传统的模块化系统不同,UI-TARS 将感知、推理、接地和记忆等基本元素整合到一个统一的视觉-语言模型 (VLM) 中,实现了无需依赖预先建立的工作流或人工干预的全面任务自动化。
全面的 GUI 理解:UI-TARS 能解释各种类型的输入,如文本和图像,形成对用户界面的完整理解。 动态交互:模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。 高密度信息处理:有效处理复杂布局和多元素界面,提取精确元数据。
统一的行动空间:跨平台(桌面、移动和网络)的标准化动作定义。 精确定位与互动:通过大规模行动轨迹训练,实现对特定 GUI 元素的精确定位和交互。 平台特定动作:支持热键、长按和平台特定手势等额外动作。 Send a twitter with the content "hello world"系统 1 和系统 2 推理:结合快速、直觉的响应与深思熟虑的高级规划,用于处理复杂任务。 任务分解与反思:支持多步规划、反思和错误修正,确保任务执行的稳健性。 基于"思考"的决策:在每个行动前生成明确的"思考"过程,将感知和行动与深思熟虑的决策联系起来。
短期记忆:捕获任务特定上下文,增强情境感知能力。 长期记忆:保留历史交互和知识,改进决策过程。 1. 增强的 GUI 截图感知:通过大规模数据集训练,专门用于提取元素类型、边界框和文本内容等元数据。2. 统一行动建模:标准化跨平台语义等效动作,提高多步执行能力。3. 系统2推理:注入各种推理模式(如任务分解、长期一致性、里程碑识别、试错和反思)到模型中。4. 反思性在线痕迹学习:通过自动收集、过滤和反思性精炼新的交互轨迹,解决数据瓶颈问题。Get the current weather in SF using the web browser在 OSWorld 基准测试中,UI-TARS-72B 在 50 步中取得了 24.6 的得分,在 15 步中取得了 22.7 的得分,优于 Claude 的 22.0 和 14.9。 在 AndroidWorld 中,UI-TARS 取得了 46.6 的得分,超过了 GPT-4o 的 34.5。 在 VisualWebBench 中,UI-TARS-72B 得分 82.8,高于 GPT-4o 的 78.5。 在 ScreenSpot Pro 上取得了 38.1(SOTA)的成绩。 这些结果证明了 UI-TARS 在感知、接地和 GUI 任务执行方面的卓越能力。字节跳动为用户提供了 UI-TARS Desktop 应用,这是一个基于 UI-TARS(视觉-语言模型)的 GUI 代理应用程序,允许用户使用自然语言控制计算机。UI-TARS Desktop 使用前可以做一些配置[UI-TARS](https://github.com/bytedance/UI-TARS)[UI-TARS-desktop](https://github.com/bytedance/UI-TARS-desktop)虽然 UI-TARS 代表了 GUI 代理领域的重大进步,但未来发展方向指向集成主动和终身学习,让代理能够通过持续的真实世界交互自主驱动自己的学习。这将最小化人类干预,同时最大化泛化能力。UI-TARS 是字节跳动在 GUI 代理领域的革命性创新,通过整合感知、行动、推理和记忆能力到一个可扩展和自适应的框架中,实现了超越现有系统的性能。它的开源发布不仅推动了 AI 驱动自动化的边界,也使其成为进一步探索和开发的可访问资源。UI-TARS 代表了从基于规则的系统向自适应原生模型的转变,为未来 GUI Agent的发展奠定了坚实基础。 |