链载Ai

标题: OpenAI发布新功能：Operator和CUA，让AI代劳你的网页任务 [打印本页]

作者: 链载Ai 时间: 4 小时前
标题: OpenAI发布新功能：Operator和CUA，让AI代劳你的网页任务

1月23日，OpenAI推出了一项全新功能——Operator，这是一款能够自主使用浏览器完成任务的AI代理工具，现已向美国的Pro用户开放。（感觉我之前买的 Pro 值回票价！）

Operator

Operator是一种基于新模型Computer-Using Agent (CUA)的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力，能够模拟人类操作浏览器的行为，包括点击、滚动和输入文本。

比如希望预订罗马的高评分一日游。通过Operator，你只需描述需求，它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互，而无需借助API集成。

Operator正在与多个知名公司展开合作，包括DoorDash、Uber、Instacart等，以优化任务执行效率。此外，它还探索在公共领域中的应用，例如协助居民更便捷地注册城市服务。

CUA

作为Operator的核心技术，**Computer-Using Agent (CUA)**，代表了AI技术的新高度，能够像人类一样与图形用户界面（GUI）互动，为未来的数字世界打开了新篇章。而Operator则是CUA技术的首个落地应用。

CUA（Computer-Using Agent）是一个通用界面模型，结合了GPT-4o的视觉能力和强化学习训练的高级推理能力，能够通过观察和操作屏幕上的按钮、菜单和文本框等元素，与图形用户界面进行交互。这种能力不需要特定的API支持，使CUA可以直接使用人类日常使用的数字工具和网页。

CUA的关键能力包括：

这使CUA能够在多样化的数字环境中执行复杂任务，例如填写表单、处理网页导航等，极大地扩展了AI的应用场景。

CUA的背后凝聚了多模态理解与推理领域的多年研究成果：

CUA在多个业界基准测试中刷新了记录，展现了其广泛适应能力：

在OSWorld中（评估AI对操作系统的控制能力，如Windows和Ubuntu），CUA达到了38.1%的成功率，接近人类的 **72.4%**。下面??是和同行的对比。（可以比不过人类，但是不能比不过同行。）

CUA能够通过更多的操作步骤实现性能提升，但与人类的表现仍有一定差距，尤其是在更复杂的任务中。

Have a

Try!

试用

我的pro账号终于排上了用场！！！

我尝试着让 AI 帮忙安排一个去日计划~

先大概说个计划

Operator 开始帮我上网搜索做攻略

帮我订酒店

和我互动询问我的意见

帮我订机票

需要人工验证的时候就把我叫过去Take Control。

这个时候想起我了。。

欢迎光临链载Ai (https://www.lianzai.com/)