“API Agents 和 GUI Agents 像是 AI 领域的“双子星”，它们正在改变我们对软件自动化的认知。想知道它们如何各显神通，又如何相互融合？一起探索吧！”

最近我看到一篇关于API Agents和GUI Agents的论文，这让我很有感触。因为当下，AI Agent领域正变得异常火爆，从去年MCP的出现，到MGX、Manus的发布，再到像Openmanus和OWL这样的开源Agent的蓬勃发展，它们背后都离不开API Agents或GUI Agents的定义和编排应用。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">如今，在人工智能领域，大型语言模型（LLM）早已不再局限于生成文本。它们已成为软件智能体的核心大脑，能够将自然语言指令直接转化为具体的行动。在这个过程中，API Agents和GUI Agents就像是“双子星”，它们各自拥有独特的优势，同时又相互补充，共同推动着AI自动化领域的边界不断拓展。接下来，一起来看看这篇论文。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.5em 1em;color: rgb(63, 63, 63);text-shadow: rgba(0, 0, 0, 0.1) 2px 2px 4px;">API Agents 和 GUI Agents 的基础概念

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">API Agents

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">API Agents 就像是软件世界的“幕后操作员”，它们通过预定义的 API 接口与外部工具、函数或服务进行交互。这种智能体能够编排微服务、查询搜索引擎，甚至通过已记录的 API 控制第三方应用程序。它们的强项在于高效、自动化和强大的可扩展性与互操作性。比如微软的 Copilot，就是 API Agents 的一个典型代表，它已经从研究原型迅速转变为被广泛采用的工业解决方案。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">API Agents 的工作原理是这样的：它们依赖于一组预先定义好的工具、插件或函数调用，这些统称为“API”。当用户发出自然语言请求时，LLM 智能体会解析意图，并根据 API 信息（如函数名、描述、参数和模式）来选择最合适的 API 进行调用。这种方式确保了智能体的操作既可靠又安全，同时也简化了决策过程。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">GUI Agents

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">与 API Agents 不同，GUI Agents 更像是“屏幕上的操作员”，它们通过“观察”和操作软件的图形用户界面来与之交互。无论是桌面、移动还是 Web 应用程序，GUI Agents 都能够模拟人类用户的行为。像 UFO、CogAgent 和 OpenAI Operator 这些项目，就展示了 GUI Agents 如何带来更丰富的用户体验、更好的可访问性，以及对软件更通用的自动化控制。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">GUI Agents 的操作方式主要依赖于视觉或多媒体输入，如应用程序的截图和文本表示（例如可访问性树或元数据）。它们通过生成、规划和执行动作来灵活适应不同的任务需求。这些动作类似于人类的交互，比如鼠标点击和键盘输入。由于需要对视觉布局进行解读并定位相关控件，GUI Agents 的操作流程相对复杂，但它们能够更贴近人类的交互方式，提供更直观的用户体验。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.5em 1em;color: rgb(63, 63, 63);text-shadow: rgba(0, 0, 0, 0.1) 2px 2px 4px;">API Agents 和 GUI Agents 的差异与比较

模式

API Agents 依赖于文本形式的 API 调用，它们通过函数名、参数和返回值来进行操作。而 GUI Agents 则依赖于屏幕截图或可访问性树等视觉信息，通过识别界面元素并模拟用户动作来完成任务。

可靠性

API Agents 通常具有更高的可靠性，因为它们依赖于定义明确的端点。这些端点易于维护、版本控制和测试，从而确保了可预测的结果。而 GUI Agents 的可靠性较低，因为它们需要处理视觉解析和布局变化等问题。界面的任何意外更改都可能干扰自动化的流程，导致错误的发生。

关联阅读

AutoDroid-V2：利用小型语言模型实现移动设备 GUI 自动控制

揭秘A3：Android Agent 的全面自主评测平台【论文】

效率

API Agents 可以通过单次调用完成复杂任务，效率高且资源消耗少。它们能够直接访问后端服务，减少了操作步骤和延迟。相比之下，GUI Agents 需要执行多个类似用户操作的步骤，这使得它们在完成相同目标时可能更慢，且操作开销更大。

可用性

API Agents 的功能受限于已发布的或预定义的 API。如果某个功能未被包含在内，智能体就无法直接调用它。这种限制在移动应用中尤为常见，因为开发者往往限制外部 API 访问以控制私有生态系统。而 GUI Agents 可以与任何呈现图形用户界面的应用程序进行交互，无需明确的 API 定义。它们能够操作界面中的任何可见元素，从而提供更广泛的应用场景覆盖。

灵活性

API Agents 的灵活性受限于已有的 API，扩展功能需要创建和部署新的端点。而 GUI Agents 理论上可以操作界面中的任何可见元素，因此具有更高的自由度。它们能够适应新的或未暴露的功能，但这也要求更先进的计算机视觉或多媒体推理能力来确保与 UI 对象的一致交互。

安全性

API Agents 提供更细粒度的保护，每个端点都可以通过身份验证、访问控制或速率限制来单独保护。这种安全性使得 API Agents 更适合处理敏感操作和受保护的资源。而 GUI Agents 可能会无意中访问执行特权或破坏性操作的界面部分，带来更高的风险。由于图形界面主要为人类用户设计，对自动化、类似鼠标和键盘的交互强制执行全面的安全策略具有挑战性。

可维护性

API Agents 的维护较为简单，只要底层端点保持稳定，智能体逻辑就可以基本保持不变。新 API 可以通过将它们的描述添加到提示中无缝集成到智能体中。而 GUI Agents 则容易受到界面重新设计、弹出窗口、布局变化等因素的影响，导致自动化流程中断。这种脆弱性显著增加了维护成本和频率，尤其是在界面频繁更新的应用中。

透明度

API Agents 的操作通常在幕后进行，用户只能看到最终结果，而无法了解具体调用了哪些端点。这种“黑箱”操作虽然高效，但在需要步骤验证或培训模拟的场景中存在局限性。而 GUI Agents 则以可视化的、可追踪的方式复制用户级别的交互，用户可以观察、干预或调整工作流程。这种透明度使得 GUI Agents 更适合需要逐步验证或视觉确认的任务。

类人交互

API Agents 采用纯粹的程序化方法，直接执行函数调用，缺乏任务执行的视觉或交互表示。它们优化了效率、可靠性和可扩展性，但在用户体验的直观性和可解释性方面有所欠缺。而 GUI Agents 则模拟人类用户的确切步骤，以自然、顺序的方式与界面元素进行交互。这种类人执行增强了可解释性，使用户更容易理解和信任智能体的操作，从而提升了用户体验的直观性和满意度。

混合方法：融合 API 和 GUI Agents 的优势

尽管 API Agents 和 GUI Agents 各有千秋，但在实际应用中，它们的边界正在逐渐模糊，混合方法开始崭露头角。

API Wrappers Over GUI Workflow

一些供应商通过引入“无头模式”或脚本接口，将基于 GUI 的应用程序转变为类似 API 的服务。这种方式将 GUI 交互抽象为结构化命令，使得原本为人类导航设计的应用程序，能够以更程序化和可扩展的方式进行自动化。例如，一个专门的会计应用程序，可能需要用户通过多个对话框和菜单来生成财务报告。但在无头或脚本版本中，该应用程序可以暴露一个 GenerateReport(startDate, endDate) 函数，从而无需手动 UI 导航即可直接执行。

统一编排工具

企业级自动化框架和流程编排工具正在提供一个统一的环境，让开发者或操作员可以构建高级工作流，而无需深入底层智能体机制。这些工具可以自动确定每个任务最适合使用 API 调用还是 GUI 交互。例如，在一个大型金融机构的贷款审批流程自动化中，用户可以在编排工具中设计一个流程图，该流程图首先使用安全的 API 端点检查客户的信用评分，然后如果信用评分达到某个阈值，就更新客户关系管理系统（CRM）。如果不存在用于更新 CRM 的相关 API，平台可以无缝切换到基于 GUI 的智能体，以用户类似的方式导航 CRM 的 Web 界面。

低代码/无代码解决方案

低代码和无代码平台通过可视化界面抽象了许多技术细节，使非专家用户也能够通过拖放组件来构建应用程序或自动化流程。这些平台可以在后台自动处理 API 调用和 GUI 智能体的插入，将 API 基础和 GUI 驱动的操作结合起来。例如，在一个订单处理工作流中，用户可以将“支付网关”组件拖到设计器中来处理交易，而平台在后台自动生成并发送到支付端点的调用。如果某个步骤需要基于 GUI 的验证，例如检查遗留系统上的特定用户界面元素，平台可以无缝插入 GUI 智能体，模拟与软件的人类交互。

战略考虑：选择合适的智能体范式

在实际部署中，选择 API Agents、GUI Agents 或混合方法需要考虑目标软件的性质、所需的集成或验证级别以及长期可持续性等因素。

何时选择 API Agents

当存在稳定、文档齐全的 API 时，API Agents 是最佳选择。它们可以利用强大的端点实现快速和可靠的操作，尤其适用于需要后台集成或企业级可靠性的关键工作流。例如，在处理性能关键的操作时，API Agents 可以通过直接函数调用来减少延迟和开销。此外，对于受控访问的应用程序，API Agents 能够确保安全性和安全性，将操作限制在预定义且可管理的范围内。

何时选择 GUI Agents

在没有直接 API 或可用 API 仅提供部分覆盖的情况下，GUI Agents 更具相关性。它们适用于需要视觉验证、自动化遗留或专有软件以及处理交互式或图形操作的场景。例如，对于遗留或专有软件，GUI Agents 可以在不修改底层代码库或开发新 API 的情况下自动化任务。此外，对于需要视觉验证或 UI 测试的工作流，GUI Agents 能够直接确认屏幕上的文本或元素，确保界面的一致性和正确性。

何时考虑混合方法

混合方法结合了两种范式的优点，适用于任务的某些方面可以很好地映射到现有 API，而其他部分只能通过图形界面访问的情况。它还为系统的未来发展提供了灵活性，随着新 API 的出现，最初通过 GUI 管理的任务可以无缝过渡到 API 调用。例如，在部分 API 覆盖的情况下，混合方法可以结合 UI 基础步骤（在 API 不可用时）和直接调用（用于数据密集型任务），从而实现更全面的自动化覆盖。

链载Ai