根据浙江大学联合OPPO、零一万物等十个机构发表的综述1,OS Agent能够通过操作系统提供的环境和接口(如图形用户界面,GUI),在电脑或手机等计算设备上自动完成各类任务。Claude的Computer Use功能、Apple Intelligence、智谱AI的AutoGLM和Google DeepMind的Project Mariner等均属于OS Agent。
OS Agent通过与操作系统提供的环境和输入/输出接口交互实现对计算设备的通用控制,依赖三大关键要素:一是环境,即Agent可操作的系统或平台,如电脑、手机和浏览器等;二是观察空间,即Agent可获取的所有信息范围,如屏幕截图、文本描述或GUI界面结构等,是Agent理解环境和任务的基础;三是动作空间,即Agent与环境交互的动作集合,定义了Agent可执行的操作,如点击按钮、输入文本、菜单导航和调用API等。
基于上述关键要素,OS Agent在理解、规划和操作等自身核心能力的支持下即可正确有效的与操作系统交互。其中,理解要求OS Agent从HTML代码、屏幕截图,以及屏幕界面中密集的图标和文本信息中提取关键内容,构建对任务和环境的全面认知;规划要求OS Agent将复杂任务拆解为多个子任务并制定操作序列,同时最好能够据环境变化动态调整计划;操作要求OS Agent将规划转化为具体的、可执行的操作,实现从文字描述到落地执行的精准转换。