链载Ai

标题: OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)


Operator



01



什么是Operator?

Operator是一种基于新模型Computer-Using Agent (CUA)的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。

比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。

Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。

Operator主要功能

  1. 任务自动化:适合处理重复性的浏览器任务,如填写表单、订购商品甚至制作趣味表情包。
  2. 多任务管理:可以同时运行多个任务,例如在Etsy上定制马克杯的同时预订露营地。
  3. 自定义工作流:用户可根据特定网站设置个性化指令,比如在预订航班时优先选择特定航空公司。
  4. 任务接管与协作:Operator会在需要输入登录或支付信息时请求用户接管,确保操作安全且直观。


CUA



02



什么是CUA?

作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而Operator则是CUA技术的首个落地应用。

CUA(Computer-Using Agent)是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。

CUA的关键能力包括:

  1. 视觉感知:通过屏幕截图理解当前的界面状态。
  2. 推理规划:通过“链式思维”生成多步骤任务计划,动态调整操作步骤。
  3. 执行动作:通过虚拟鼠标和键盘完成点击、滚动和输入等操作。

这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。

技术亮点

CUA的背后凝聚了多模态理解与推理领域的多年研究成果:

评估与性能表现

CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:

CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。


Have a

Try!



03



试用

我的pro账号终于排上了用场!!!

我尝试着让 AI 帮忙安排一个去日计划~



先大概说个计划




Operator 开始帮我上网搜索做攻略




帮我订酒店




和我互动询问我的意见




帮我订机票




需要人工验证的时候就把我叫过去Take Control。

这个时候想起我了。。









欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5