返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)


Operator



01



什么是Operator?

Operator是一种基于新模型Computer-Using Agent (CUA)的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。

比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。

Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。

Operator主要功能

  1. 任务自动化:适合处理重复性的浏览器任务,如填写表单、订购商品甚至制作趣味表情包。
  2. 多任务管理:可以同时运行多个任务,例如在Etsy上定制马克杯的同时预订露营地。
  3. 自定义工作流:用户可根据特定网站设置个性化指令,比如在预订航班时优先选择特定航空公司。
  4. 任务接管与协作:Operator会在需要输入登录或支付信息时请求用户接管,确保操作安全且直观。


CUA



02



什么是CUA?

作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而Operator则是CUA技术的首个落地应用。

CUA(Computer-Using Agent)是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。

CUA的关键能力包括:

  1. 视觉感知:通过屏幕截图理解当前的界面状态。
  2. 推理规划:通过“链式思维”生成多步骤任务计划,动态调整操作步骤。
  3. 执行动作:通过虚拟鼠标和键盘完成点击、滚动和输入等操作。

这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。

技术亮点

CUA的背后凝聚了多模态理解与推理领域的多年研究成果:

  • 广泛任务能力:CUA能够在不同任务场景中切换,如处理网页表单或进行复杂的跨平台操作。
  • 智能纠错与自适应:在遇到问题时,CUA能够进行动态调整,优化任务完成路径。
  • 业界领先的性能指标:CUA在多个基准测试中表现出色:
    • OSWorld中,CUA的完整计算任务成功率达到38.1%;
    • WebArena中达到58.1%,在WebVoyager中高达87%。

评估与性能表现

CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:

  • 浏览器任务
    • WebArena(仿真真实网页环境)中,CUA成功率达到 **58.1%**。
    • WebVoyager(真实网站测试,如Amazon、GitHub等)中,成功率高达 **87%**。
  • 操作系统任务
    • OSWorld中(评估AI对操作系统的控制能力,如Windows和Ubuntu),CUA达到了38.1%的成功率,接近人类的 **72.4%**。下面??是和同行的对比。(可以比不过人类,但是不能比不过同行。)

CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。


Have a

Try!



03



试用

我的pro账号终于排上了用场!!!

我尝试着让 AI 帮忙安排一个去日计划~



先大概说个计划




Operator 开始帮我上网搜索做攻略




帮我订酒店




和我互动询问我的意见




帮我订机票




需要人工验证的时候就把我叫过去Take Control。

这个时候想起我了。。




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ