突破传统！OpenAI Operator引领AI代理新纪元！

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">在本文中，我通过AI代理的视角探讨OpenAI Operator，重点关注桌面和浏览器访问的准确性、人类监督，以及模型（CUA）与框架（Operator）之间的区别。最后，我讨论了前进过程中需要牢记的关键挑战和重要考虑因素。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">介绍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最近发布了多个ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">AI Agent Computer Interface (ACI)框架。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">核心概念是 AI Agent 居住在用户的桌面上，使其能够通过 GUI 导航 PC 和互联网。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">可以将 GUI 看作是 API 的人性化版本。这一能力赋予了 AI Agent 无与伦比的自由，能够按照用户的设想执行任务。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">通过将用户请求与 GUI 的直观界面及其功能可能性对齐，AI 确保了无缝且高效的体验。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">一些背景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">虽然我一直在尝试定义不同的方法来引入代理和自动化，但我也喜欢提到一个代理光谱。在像Operator这样完整的解决方案中，以及在特定垂直领域中，都需要不同级别的代理和监督。

名为CUA的Operator模型将通过API提供。这让我想到下一个要点，即企业能够在非常细粒度的基础上构建自己的解决方案。

桌面 & 互联网

ACI 在两个主要环境中运行：PC 本身和浏览器。

在 PC 上，它可以访问 Word 和 Excel 等程序，管理文件，设置权限等。访问浏览器则开启了全新的功能和数据检索维度。

OpenAI Operator例如，使用虚拟浏览器与网页内容互动，模拟人类行为以导航网站、搜索、填写表单和执行任务，即使在没有 API 的平台上也能进行。

同样，Claude 3.5 计算机使用模型通过在用户 PC 上运行的 Docker 实例利用虚拟机，进一步扩展 AI 能力。

针对用户市场有不同的策略，每种策略都有其自身的重点。

关键考虑因素包括确保安全性和保护用户数据，通过透明度和可靠性建立信任，减少访问和使用技术的摩擦，以及通过使解决方案直观易用来推动采用。

有效平衡这些因素可以决定 AI 在满足用户需求方面的成功，同时促进长期参与。

在下面的文章中，我探讨了AI 中不断演变的术语，澄清了常常被交替使用的关键术语。我提供了对其含义和技术层面影响的详细分析，帮助解密围绕 AI 及其应用的语言。

准确性与监督

围绕 AI 代理的炒作导致了对其准确性的误解，特别是在复杂的长时间任务中。

为了解决这个问题，我倡导我所称的代理工作流程，在人类提供指令的情况下，AI 创建并执行一个工作流程或事件序列，并在人的监督下进行。

这种方法将 AI 的效率与人类的监督相结合，以确保准确性和可靠性。

Claude AI 代理计算机接口 (ACI)在通过图形用户界面 (GUI) 与计算机交互时，当前的效率比人类低约80%。

虽然人类通常能够达到70–75%的熟练程度，但 Claude ACI 框架在 OSWorld 基准测试中仅得分14.9%— 该测试旨在评估模型在导航和使用计算机方面的能力。

如下面所示，最近的研究显示 AI 代理的成功率在所有情况下均低于 25%。下面展示了支撑每个 AI 代理的模型。

OpenAI 操作员展示了市场领先的性能，尤其是与 Anthropic 相比。

与其他技术一样，AI 代理的性能遵循着一个熟悉的轨迹——就像先进的语音识别 (ASR) 一样，最初落后于人类能力，但最终达到了并超越了它们。这表明 AI 代理可能会沿着类似的路径，随着时间的推移实现并超越人类水平的性能。

下面的文章介绍了 Claude 3.5 计算机使用模型，它标志着一个突破性的里程碑，成为第一个通过图形用户界面 (GUI) AI 代理引入计算机使用的前沿 AI 模型的公开测试版。

将模型与框架分离

计算机用户代理 (CUA)应被视为与操作框架和虚拟浏览器环境相分离的独立模型。

与强调基于网络的工作流程的操作框架不同，CUA 专注于管理本地应用程序、文件和系统级任务，例如导航图形用户界面和执行命令。

这种区别至关重要，因为 CUA 解决了特定于桌面接口的挑战，包括操作系统特定行为和应用程序集成。

将 CUA 视为独立模型，可以实现量身定制的优化，补充操作框架的更广泛能力。这两个模型结合在一起，可以为本地和在线环境中的 AI 驱动自动化提供整体解决方案。

考虑下面的图像…

该图形显示了 CUA 模型如何与操作环境分开。

OpenAI计划在 API 中公开驱动操作的模型CUA，以便开发者可以使用它构建自己的计算机使用代理。

该模型处理原始像素数据，以理解屏幕上的上下文和内容，并使用虚拟鼠标和键盘完成操作。

它可以导航多步骤任务，处理错误，并适应意外变化。

这使得 CUA 能够在广泛的数字环境中执行任务，例如填写表单和浏览网站，而无需特定的 API。

在用户指令的指导下，CUA 通过一个整合感知、推理和行动的迭代循环进行操作：

感知

该模型将计算机的屏幕截图整合到其上下文中，提供系统当前状态的视觉快照，从而帮助其确定行动。

推理

通过链式思维过程，CUA 通过考虑当前和之前的截图及操作来评估下一步。这一推理过程使模型能够跟踪其进展，审查中间步骤，并根据需要进行调整，从而提高整体任务性能。

操作

CUA 然后执行任务，例如点击、滚动或输入，直到任务完成或需要进一步的用户输入。虽然它自动化了大多数操作，但 CUA 在执行敏感任务之前会提示用户确认，例如输入登录凭据或处理 CAPTCHA 挑战。

AI Agent Computer Interface (ACI). 革新用户交互 & AI 代理如何超越模型走向框架，重新定义计算机接口的未来

代理工作流程

OpenAI Operator具有观察、创建和动态更新工作流程的能力，能够根据不断变化的输入和条件进行调整。

这些工作流程可以安排在特定时间或间隔运行，自动化任务和流程，而无需持续的人工干预。

通过观察用户输入和系统状态，Operator 可以实时调整工作流程以优化效率。

调度的工作流程允许例行任务自动处理，使用户免于重复操作。

Operator 同时创建和修改工作流程的能力确保其能够适应不断变化的需求，与其他模型如 CUA 无缝集成，以实现更广泛的任务自动化。

这种工作流程管理的灵活性增强了整体自动化体验，允许在各种任务和环境中进行即时和长期规划。

账户网站

根据OpenAI的内容，OpenAI Operator中似乎有一个账户网站选项卡。

这似乎是框架中的一个部分，允许AI通过存储的用户账户管理和与不同网站进行交互。

此功能使Operator能够安全地访问和自动化用户有账户的网站上的任务，例如登录、管理设置或执行其他经过身份验证的操作。

根据文档，账户网站选项卡组织并存储各种网站的凭据和访问点，使Operator能够根据需要检索或更新信息。它可能包括以下功能：

1.账户管理：存储和安全管理登录凭据及其他敏感数据。
2.网站交互：自动化需要用户身份验证的网站上的任务，例如提交表单或检索数据。
3.安全性和隐私：确保敏感信息的正确处理，包括加密和访问控制。
4.任务自动化：允许AI在用户有账户的网站上执行重复或定期的操作。

障碍与考虑

在截图和流媒体屏幕交互方面有一些考虑，这可能通过 CUA API 进行探索是有趣的。有评论指出，使用截图会导致连续性中断。

AI 代理在浏览互联网时面临弹出窗口和干扰性图形的挑战，研究表明浏览代理在这些元素的攻击下存在漏洞，强调了监督的必要性。

直接访问用户的机器存在风险，这就是为什么使用虚拟机，例如 Anthropic 使用的 Docker 环境，提供了更安全的替代方案。

虚拟机提供了更少的采用障碍，模拟了超越浏览器的完整 PC 使用。

对于复杂的长期任务，仍然需要强有力的人类监督，这可能导致网站与像 OpenAI 这样的 AI 提供商合作，创建安全环境——本质上是一个安全 AI 交互的市场。

我喜欢虚拟浏览器的想法，以及一个位于虚拟世界与用户之间的过滤器，用户决定从他们的个人空间共享哪些数据到虚拟浏览器环境。