名为CUA的Operator模型将通过API提供。这让我想到下一个要点,即企业能够在非常细粒度的基础上构建自己的解决方案。
ACI 在两个主要环境中运行:PC 本身和浏览器。
在 PC 上,它可以访问 Word 和 Excel 等程序,管理文件,设置权限等。访问浏览器则开启了全新的功能和数据检索维度。
OpenAI Operator例如,使用虚拟浏览器与网页内容互动,模拟人类行为以导航网站、搜索、填写表单和执行任务,即使在没有 API 的平台上也能进行。
同样,Claude 3.5 计算机使用模型通过在用户 PC 上运行的 Docker 实例利用虚拟机,进一步扩展 AI 能力。
针对用户市场有不同的策略,每种策略都有其自身的重点。
关键考虑因素包括确保安全性和保护用户数据,通过透明度和可靠性建立信任,减少访问和使用技术的摩擦,以及通过使解决方案直观易用来推动采用。
有效平衡这些因素可以决定 AI 在满足用户需求方面的成功,同时促进长期参与。
在下面的文章中,我探讨了AI 中不断演变的术语,澄清了常常被交替使用的关键术语。我提供了对其含义和技术层面影响的详细分析,帮助解密围绕 AI 及其应用的语言。
围绕 AI 代理的炒作导致了对其准确性的误解,特别是在复杂的长时间任务中。
为了解决这个问题,我倡导我所称的代理工作流程,在人类提供指令的情况下,AI 创建并执行一个工作流程或事件序列,并在人的监督下进行。
这种方法将 AI 的效率与人类的监督相结合,以确保准确性和可靠性。
Claude AI 代理计算机接口 (ACI)在通过图形用户界面 (GUI) 与计算机交互时,当前的效率比人类低约80%。
虽然人类通常能够达到70–75%的熟练程度,但 Claude ACI 框架在 OSWorld 基准测试中仅得分14.9%— 该测试旨在评估模型在导航和使用计算机方面的能力。
如下面所示,最近的研究显示 AI 代理的成功率在所有情况下均低于 25%。下面展示了支撑每个 AI 代理的模型。
OpenAI 操作员展示了市场领先的性能,尤其是与 Anthropic 相比。
与其他技术一样,AI 代理的性能遵循着一个熟悉的轨迹——就像先进的语音识别 (ASR) 一样,最初落后于人类能力,但最终达到了并超越了它们。这表明 AI 代理可能会沿着类似的路径,随着时间的推移实现并超越人类水平的性能。
下面的文章介绍了 Claude 3.5 计算机使用模型,它标志着一个突破性的里程碑,成为第一个通过图形用户界面 (GUI) AI 代理引入计算机使用的前沿 AI 模型的公开测试版。
计算机用户代理 (CUA)应被视为与操作框架和虚拟浏览器环境相分离的独立模型。
与强调基于网络的工作流程的操作框架不同,CUA 专注于管理本地应用程序、文件和系统级任务,例如导航图形用户界面和执行命令。
这种区别至关重要,因为 CUA 解决了特定于桌面接口的挑战,包括操作系统特定行为和应用程序集成。
将 CUA 视为独立模型,可以实现量身定制的优化,补充操作框架的更广泛能力。这两个模型结合在一起,可以为本地和在线环境中的 AI 驱动自动化提供整体解决方案。
考虑下面的图像…
该图形显示了 CUA 模型如何与操作环境分开。
OpenAI计划在 API 中公开驱动操作的模型CUA,以便开发者可以使用它构建自己的计算机使用代理。
该模型处理原始像素数据,以理解屏幕上的上下文和内容,并使用虚拟鼠标和键盘完成操作。
它可以导航多步骤任务,处理错误,并适应意外变化。
这使得 CUA 能够在广泛的数字环境中执行任务,例如填写表单和浏览网站,而无需特定的 API。
在用户指令的指导下,CUA 通过一个整合感知、推理和行动的迭代循环进行操作:
该模型将计算机的屏幕截图整合到其上下文中,提供系统当前状态的视觉快照,从而帮助其确定行动。
通过链式思维过程,CUA 通过考虑当前和之前的截图及操作来评估下一步。这一推理过程使模型能够跟踪其进展,审查中间步骤,并根据需要进行调整,从而提高整体任务性能。
CUA 然后执行任务,例如点击、滚动或输入,直到任务完成或需要进一步的用户输入。虽然它自动化了大多数操作,但 CUA 在执行敏感任务之前会提示用户确认,例如输入登录凭据或处理 CAPTCHA 挑战。
AI Agent Computer Interface (ACI). 革新用户交互 & AI 代理如何超越模型走向框架,重新定义计算机接口的未来
OpenAI Operator具有观察、创建和动态更新工作流程的能力,能够根据不断变化的输入和条件进行调整。
这些工作流程可以安排在特定时间或间隔运行,自动化任务和流程,而无需持续的人工干预。
通过观察用户输入和系统状态,Operator 可以实时调整工作流程以优化效率。
调度的工作流程允许例行任务自动处理,使用户免于重复操作。
Operator 同时创建和修改工作流程的能力确保其能够适应不断变化的需求,与其他模型如 CUA 无缝集成,以实现更广泛的任务自动化。
这种工作流程管理的灵活性增强了整体自动化体验,允许在各种任务和环境中进行即时和长期规划。
根据OpenAI的内容,OpenAI Operator中似乎有一个账户网站选项卡。
这似乎是框架中的一个部分,允许AI通过存储的用户账户管理和与不同网站进行交互。
此功能使Operator能够安全地访问和自动化用户有账户的网站上的任务,例如登录、管理设置或执行其他经过身份验证的操作。
根据文档,账户网站选项卡组织并存储各种网站的凭据和访问点,使Operator能够根据需要检索或更新信息。它可能包括以下功能:
在截图和流媒体屏幕交互方面有一些考虑,这可能通过 CUA API 进行探索是有趣的。有评论指出,使用截图会导致连续性中断。
AI 代理在浏览互联网时面临弹出窗口和干扰性图形的挑战,研究表明浏览代理在这些元素的攻击下存在漏洞,强调了监督的必要性。
直接访问用户的机器存在风险,这就是为什么使用虚拟机,例如 Anthropic 使用的 Docker 环境,提供了更安全的替代方案。
虚拟机提供了更少的采用障碍,模拟了超越浏览器的完整 PC 使用。
对于复杂的长期任务,仍然需要强有力的人类监督,这可能导致网站与像 OpenAI 这样的 AI 提供商合作,创建安全环境——本质上是一个安全 AI 交互的市场。
我喜欢虚拟浏览器的想法,以及一个位于虚拟世界与用户之间的过滤器,用户决定从他们的个人空间共享哪些数据到虚拟浏览器环境。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |