返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

突破传统!OpenAI Operator引领AI代理新纪元!

[复制链接]
链载Ai 显示全部楼层 发表于 8 小时前 |阅读模式 打印 上一主题 下一主题
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">在本文中,我通过AI代理的视角探讨OpenAI Operator,重点关注桌面和浏览器访问的准确性、人类监督,以及模型(CUA)与框架(Operator)之间的区别。最后,我讨论了前进过程中需要牢记的关键挑战和重要考虑因素。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">介绍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最近发布了多个ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">AI Agent Computer Interface (ACI)框架。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">核心概念是 AI Agent 居住在用户的桌面上,使其能够通过 GUI 导航 PC 和互联网。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">可以将 GUI 看作是 API 的人性化版本。这一能力赋予了 AI Agent 无与伦比的自由,能够按照用户的设想执行任务。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">通过将用户请求与 GUI 的直观界面及其功能可能性对齐,AI 确保了无缝且高效的体验。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">一些背景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">虽然我一直在尝试定义不同的方法来引入代理和自动化,但我也喜欢提到一个代理光谱。在像Operator这样完整的解决方案中,以及在特定垂直领域中,都需要不同级别的代理和监督。

名为CUA的Operator模型将通过API提供。这让我想到下一个要点,即企业能够在非常细粒度的基础上构建自己的解决方案。

桌面 & 互联网

ACI 在两个主要环境中运行:PC 本身和浏览器。

在 PC 上,它可以访问 Word 和 Excel 等程序,管理文件,设置权限等。访问浏览器则开启了全新的功能和数据检索维度。

OpenAI Operator例如,使用虚拟浏览器与网页内容互动,模拟人类行为以导航网站、搜索、填写表单和执行任务,即使在没有 API 的平台上也能进行。

同样,Claude 3.5 计算机使用模型通过在用户 PC 上运行的 Docker 实例利用虚拟机,进一步扩展 AI 能力。

针对用户市场有不同的策略,每种策略都有其自身的重点。

关键考虑因素包括确保安全性和保护用户数据,通过透明度和可靠性建立信任,减少访问和使用技术的摩擦,以及通过使解决方案直观易用来推动采用。

有效平衡这些因素可以决定 AI 在满足用户需求方面的成功,同时促进长期参与。

在下面的文章中,我探讨了AI 中不断演变的术语,澄清了常常被交替使用的关键术语。我提供了对其含义和技术层面影响的详细分析,帮助解密围绕 AI 及其应用的语言。

准确性与监督

围绕 AI 代理的炒作导致了对其准确性的误解,特别是在复杂的长时间任务中。

为了解决这个问题,我倡导我所称的代理工作流程,在人类提供指令的情况下,AI 创建并执行一个工作流程或事件序列,并在人的监督下进行。

这种方法将 AI 的效率与人类的监督相结合,以确保准确性和可靠性。

Claude AI 代理计算机接口 (ACI)在通过图形用户界面 (GUI) 与计算机交互时,当前的效率比人类低约80%

虽然人类通常能够达到70–75%的熟练程度,但 Claude ACI 框架在 OSWorld 基准测试中仅得分14.9%— 该测试旨在评估模型在导航和使用计算机方面的能力。

如下面所示,最近的研究显示 AI 代理的成功率在所有情况下均低于 25%。下面展示了支撑每个 AI 代理的模型。

OpenAI 操作员展示了市场领先的性能,尤其是与 Anthropic 相比。

与其他技术一样,AI 代理的性能遵循着一个熟悉的轨迹——就像先进的语音识别 (ASR) 一样,最初落后于人类能力,但最终达到了并超越了它们。这表明 AI 代理可能会沿着类似的路径,随着时间的推移实现并超越人类水平的性能。

下面的文章介绍了 Claude 3.5 计算机使用模型,它标志着一个突破性的里程碑,成为第一个通过图形用户界面 (GUI) AI 代理引入计算机使用的前沿 AI 模型的公开测试版。

将模型与框架分离

计算机用户代理 (CUA)应被视为与操作框架和虚拟浏览器环境相分离的独立模型

与强调基于网络的工作流程的操作框架不同,CUA 专注于管理本地应用程序、文件和系统级任务,例如导航图形用户界面和执行命令。

这种区别至关重要,因为 CUA 解决了特定于桌面接口的挑战,包括操作系统特定行为和应用程序集成。

将 CUA 视为独立模型,可以实现量身定制的优化,补充操作框架的更广泛能力。这两个模型结合在一起,可以为本地和在线环境中的 AI 驱动自动化提供整体解决方案。

考虑下面的图像…

该图形显示了 CUA 模型如何与操作环境分开。

OpenAI计划在 API 中公开驱动操作的模型CUA,以便开发者可以使用它构建自己的计算机使用代理。

该模型处理原始像素数据,以理解屏幕上的上下文和内容,并使用虚拟鼠标和键盘完成操作。

它可以导航多步骤任务,处理错误,并适应意外变化。

这使得 CUA 能够在广泛的数字环境中执行任务,例如填写表单和浏览网站,而无需特定的 API。

在用户指令的指导下,CUA 通过一个整合感知、推理和行动的迭代循环进行操作:

感知

该模型将计算机的屏幕截图整合到其上下文中,提供系统当前状态的视觉快照,从而帮助其确定行动。

推理

通过链式思维过程,CUA 通过考虑当前和之前的截图及操作来评估下一步。这一推理过程使模型能够跟踪其进展,审查中间步骤,并根据需要进行调整,从而提高整体任务性能。

操作

CUA 然后执行任务,例如点击、滚动或输入,直到任务完成或需要进一步的用户输入。虽然它自动化了大多数操作,但 CUA 在执行敏感任务之前会提示用户确认,例如输入登录凭据或处理 CAPTCHA 挑战。

AI Agent Computer Interface (ACI). 革新用户交互 & AI 代理如何超越模型走向框架,重新定义计算机接口的未来

代理工作流程

OpenAI Operator具有观察、创建和动态更新工作流程的能力,能够根据不断变化的输入和条件进行调整。

这些工作流程可以安排在特定时间或间隔运行,自动化任务和流程,而无需持续的人工干预。

通过观察用户输入和系统状态,Operator 可以实时调整工作流程以优化效率。

调度的工作流程允许例行任务自动处理,使用户免于重复操作。

Operator 同时创建和修改工作流程的能力确保其能够适应不断变化的需求,与其他模型如 CUA 无缝集成,以实现更广泛的任务自动化。

这种工作流程管理的灵活性增强了整体自动化体验,允许在各种任务和环境中进行即时和长期规划。

账户网站

根据OpenAI的内容,OpenAI Operator中似乎有一个账户网站选项卡

这似乎是框架中的一个部分,允许AI通过存储的用户账户管理和与不同网站进行交互。

此功能使Operator能够安全地访问和自动化用户有账户的网站上的任务,例如登录、管理设置或执行其他经过身份验证的操作。

根据文档,账户网站选项卡组织并存储各种网站的凭据和访问点,使Operator能够根据需要检索或更新信息。它可能包括以下功能:

  1. 1.账户管理:存储和安全管理登录凭据及其他敏感数据。
  2. 2.网站交互:自动化需要用户身份验证的网站上的任务,例如提交表单或检索数据。
  3. 3.安全性和隐私:确保敏感信息的正确处理,包括加密和访问控制。
  4. 4.任务自动化:允许AI在用户有账户的网站上执行重复或定期的操作。

障碍与考虑

在截图和流媒体屏幕交互方面有一些考虑,这可能通过 CUA API 进行探索是有趣的。有评论指出,使用截图会导致连续性中断。

AI 代理在浏览互联网时面临弹出窗口和干扰性图形的挑战,研究表明浏览代理在这些元素的攻击下存在漏洞,强调了监督的必要性。

直接访问用户的机器存在风险,这就是为什么使用虚拟机,例如 Anthropic 使用的 Docker 环境,提供了更安全的替代方案。

虚拟机提供了更少的采用障碍,模拟了超越浏览器的完整 PC 使用。

对于复杂的长期任务,仍然需要强有力的人类监督,这可能导致网站与像 OpenAI 这样的 AI 提供商合作,创建安全环境——本质上是一个安全 AI 交互的市场。

我喜欢虚拟浏览器的想法,以及一个位于虚拟世界与用户之间的过滤器,用户决定从他们的个人空间共享哪些数据到虚拟浏览器环境。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ