返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

字节开源了“豆包电脑”:UI-TARS-Destktop

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题
最近字节开源了自动化桌面办公的项目开源,这就是现在的UI-Tars-desktop,通过这个系统就可以实现桌面自动化办公,可以说这就是“豆包电脑”
如下是系统截图,通过视觉可视化UI完成解读UI来驱动系统自动化操作

目前这个产品到底使用如何,简单来说就是通过对话完成任务命令,就可以完成各类浏览器、与应用程序打开。
目前系统支持Agent形式的CLI调用以及普通桌面形式使用,前者是可以将以及客户端2种方式,第一种是支持Web Ui或者CLI的形式,允许开发者进行调用与兼容,第二周则是原生桌面GUI,只能通过远程桌面完成自动化操作。
也就是官方系统了自动化的平台调用形式,如下是系统的演示,15秒时间完成了对比酒店信息与价格。

目前支持多个工具:从CLI命令行到可视化桌面窗口
现在最新版本在11月份更新了之后,支持结构化输出,查看最后的结果,并且适合系统批量处理。
能够支持自动debug相关任务流程命令
可以查询到AI的沟通记录,以及了解他为什么会这么干,以及了解过去的过程与步骤,从而优化提示词与界面,
从豆包手机再到“豆包”电脑,接下来白领会成为第一批淘汰的人
在最近大火的2025年底马斯克的2个半小时访谈里,就提到在2026年预计Grok就会达到AGI,同时第一批被淘汰的人就是用鼠标和键盘的这群白领。
这些人将首先最容易被AI替代,因为没有涉及到物理世界,使用的数据都是数据信号,没有物理原理,而真实世界会有物理世界,这些会逐步被空间智能与空间感知替代。
带着团队打通vision Pro与AndroidXR 以及空间计算与PC、手机
最近之所以发现这个项目,是因为我带着团队正在打破空间计算与PC电脑的隔阂,要是使用vision Pro的同学应该知道,我们现在都只能够投屏PC或手机,所以使用vision Pro总是感觉是割裂的,就是无法和自己的PC电脑进行交互,虽然你知道都是数字化的屏幕,这就导致体验是割裂的。
但是比较遗憾的,现在vision Pro还没有提供眼球数据,所以开发者不能够获取到精细化的选中,而只有AndroidXR提供了眼球数据。
所以后续这类豆包手机、电脑都会成为大大提升人类与系统交互的工具,就不需要每一次点击鼠标或鼠标键盘打字了,将其通过agent帮忙进行输入

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ