链载Ai

标题: 字节开源了“豆包电脑”:UI-TARS-Destktop [打印本页]

作者: 链载Ai    时间: 昨天 17:13
标题: 字节开源了“豆包电脑”:UI-TARS-Destktop
最近字节开源了自动化桌面办公的项目开源,这就是现在的UI-Tars-desktop,通过这个系统就可以实现桌面自动化办公,可以说这就是“豆包电脑”
如下是系统截图,通过视觉可视化UI完成解读UI来驱动系统自动化操作

目前这个产品到底使用如何,简单来说就是通过对话完成任务命令,就可以完成各类浏览器、与应用程序打开。
目前系统支持Agent形式的CLI调用以及普通桌面形式使用,前者是可以将以及客户端2种方式,第一种是支持Web Ui或者CLI的形式,允许开发者进行调用与兼容,第二周则是原生桌面GUI,只能通过远程桌面完成自动化操作。
也就是官方系统了自动化的平台调用形式,如下是系统的演示,15秒时间完成了对比酒店信息与价格。

目前支持多个工具:从CLI命令行到可视化桌面窗口
现在最新版本在11月份更新了之后,支持结构化输出,查看最后的结果,并且适合系统批量处理。
能够支持自动debug相关任务流程命令
可以查询到AI的沟通记录,以及了解他为什么会这么干,以及了解过去的过程与步骤,从而优化提示词与界面,
从豆包手机再到“豆包”电脑,接下来白领会成为第一批淘汰的人
在最近大火的2025年底马斯克的2个半小时访谈里,就提到在2026年预计Grok就会达到AGI,同时第一批被淘汰的人就是用鼠标和键盘的这群白领。
这些人将首先最容易被AI替代,因为没有涉及到物理世界,使用的数据都是数据信号,没有物理原理,而真实世界会有物理世界,这些会逐步被空间智能与空间感知替代。
带着团队打通vision Pro与AndroidXR 以及空间计算与PC、手机
最近之所以发现这个项目,是因为我带着团队正在打破空间计算与PC电脑的隔阂,要是使用vision Pro的同学应该知道,我们现在都只能够投屏PC或手机,所以使用vision Pro总是感觉是割裂的,就是无法和自己的PC电脑进行交互,虽然你知道都是数字化的屏幕,这就导致体验是割裂的。
但是比较遗憾的,现在vision Pro还没有提供眼球数据,所以开发者不能够获取到精细化的选中,而只有AndroidXR提供了眼球数据。
所以后续这类豆包手机、电脑都会成为大大提升人类与系统交互的工具,就不需要每一次点击鼠标或鼠标键盘打字了,将其通过agent帮忙进行输入






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5