返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Agent S:像人类一样使用电脑的AI来了!

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题


研究人员开发出了一个能像人类一样使用电脑的AI系统!


这个名为Agent S的系统,通过将复杂的桌面任务分解成易于管理的小步骤,并记住有效的操作方法,成功实现了在不同系统上处理各种桌面任务的能力。这项突破性研究为AI自动化复杂计算机任务开辟了新天地。

Agent S:AI界的"电脑高手"

Agent S采用了一种名为"经验增强分层规划"的方法,让它能够更好地处理各种图形用户界面(GUI)任务。这种方法主要包含三个关键组件:

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.75px;text-align: center;"/>

  • 管理器模块:负责将复杂任务分解成子任务,利用网络知识和叙事记忆来制定整体计划。

  • 工作者模块:执行具体的子任务,依靠情景记忆和轨迹反思来完成操作。

  • 自我评估器:将经验总结为文本形式的奖励,并更新叙事和情景记忆。

这种结构使Agent S能够像人类一样,逐步学习、积累经验,并不断提高自己的操作技能

为什么Agent S如此与众不同?

传统的AI系统在处理复杂计算机任务时面临三大挑战:

  • 获取各种应用程序的专门知识

  • 规划长期任务

  • 应对动态、非统一的界面

Agent S通过其独特的设计巧妙地解决了这些问题。它不仅能够理解任务,还能制定合理的执行计划,并在动态变化的界面中灵活应对

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.75px;text-align: center;"/>

Agent-Computer Interface:AI与计算机的"神经接口"

研究团队还开发了一个称为Agent-Computer Interface(ACI)的抽象层,进一步提升了Agent S的性能:

  • 双输入策略:结合视觉输入和图像增强的可访问性树,既能理解环境变化,又能精确定位界面元素。

  • 有界动作空间:定义了一组基于语言的原语操作,有利于多模态大语言模型(MLLM)进行推理。

  • 适当的环境转换:生成合适时间分辨率的环境反馈,便于观察即时结果。

这些创新使Agent S能够更好地"理解"和"操作"计算机界面,就像一个熟练的人类用户一样。

惊人的实验结果

研究团队在多个benchmark上测试了Agent S的性能,结果令人振奋:

  • 在OSWorld基准测试中,Agent S达到了20.58%的成功率,相比基线方法提升了83.6%。

  • 在五个计算机任务类别中,Agent S都表现出了持续的改进。

  • 在WindowsAgentArena测试中,即使没有专门适应,Agent S也取得了18.2%的成功率,比基线方法提高了36.8%。

Agent S 不仅能够执行预定义的任务,还能通过持续学习来适应新的任务和环境。这种能力对于提高办公效率、自动化测试、以及开发更智能的数字助手都具有重要意义。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ