|
“基于多模式大型语言模型(MLLM)的移动设备代理正在成为一种流行的应用。Mobile Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知的视觉上下文,它自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。但是它的性能并不能满足实际需要,阿里推出Mobile Agent v2,这是一种用于移动设备操作辅助的多智能体架构。该体系结构包括三个agent:规划agent、决策agent和纠错agent。规划agent将冗长的、交错的图像-文本历史操作和屏幕摘要浓缩为纯文本任务进度,然后将其传递给决策代理。上下文长度的减少使得决策agent更容易导航任务进度。为了纠正错误的操作,纠错agent会观察每个操作的结果,并快速处理任何错误。”
代码链接-https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/
论文链接-https://arxiv.org/pdf/2406.01014
Agent(代理)是指在某个系统或环境中代表或执行特定任务的实体。在计算机科学领域,Agent通常是指一种软件实体,它能够自主地感知环境、做出决策和执行动作,以达到预定的目标。Agent可以是自主的、智能的,也可以是被动的、简单的。它们可以是独立的程序,也可以是嵌入到其他系统中的组件。Agent通常具有一些基本特征,如感知、推理、决策、执行和通信等。上图展示了一个统一的agent的整体架构图,整个架构包括:配置模块、记忆模块、规划模块和行动模块 4个关键模块。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;width: 537.455px;color: rgb(62, 62, 62);font-size: 16px;background-color: rgb(255, 255, 255);list-style-type: circle;">记忆和规划模块将agent置于一个动态环境中,使其能够回忆过去的行为并计划未来的动作;在这些模块中,配置模块影响记忆和规划模块,而这三个模块共同影响行动模块。 02-Mobile-Agent算法简介 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);text-align: left;">基于多模式大型语言模型(MLLM)的移动设备代理正在成为一种流行的应用。Mobile Agent是一种自主的多模式移动设备代理。Mobile Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知的视觉上下文,它自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。与以前依赖应用程序的XML文件或移动系统元数据的解决方案不同,mobile Agent以视觉为中心,在不同的移动操作环境中提供了更大的适应性,从而消除了系统特定定制的必要性。Mobile Agent利用视觉感知工具进行操作本地化。它可以自我规划每一步,完成自我反思。Mobile Agent完全依赖于设备屏幕截图,而不需要任何系统代码,这是一个纯粹基于视觉的解决方案。为了评估移动代理的性能,作者引入了MobileEval,这是一个评估移动设备操作的基准。基于Mobile Eval,作者对Mobile Agent进行了全面的评估。实验结果表明,移动Agent实现了显著的准确率和完成率。即使使用具有挑战性的指令,如多应用程序操作,Mobile Agent仍然可以满足要求。03-Mobile-Agent-v2算法简介 移动设备操作任务正日益成为一种流行的多模态人工智能应用场景。当前的多模态大型语言模型(MLLM)受其训练数据的限制,缺乏有效操作助手的功能。相反,通过工具调用增强功能的基于MLLM的代理正逐渐成为一种潮流。然而,在现有工作的单Agent架构下,移动设备操作任务中存在两大导航挑战,即任务进度导航和焦点内容导航很难有效解决。这是由于过长的令牌序列和交错的文本图像数据格式限制了其性能。为了有效应对这些导航挑战,作者提出了Mobile-Agent-v2,这是一种用于移动设备操作辅助的多智能体架构。该体系结构包括三个agent:规划agent、决策agent和纠错agent。规划agent将冗长的、交错的图像-文本历史操作和屏幕摘要浓缩为纯文本任务进度,然后将其传递给决策代理。上下文长度的减少使得决策agent更容易导航任务进度。为了保留焦点内容,作者设计了一个内存单元,通过决策agent随任务进度进行更新。 此外,为了纠正错误的操作,纠错agent会观察每个操作的结果,并快速处理任何错误。大量的实验结果表明,与单agent架构的移动代理相比,Mobile-Agent-v2的任务完成率提高了30%以上。上图展示了Mobile-Agent-v2的整体架构。整个操作过程是迭代执行的。Mobile-Agent-v2有三个专门的代理角色:规划代理、决策代理和纠错代理。除此之外,作者还设计了视觉感知模块和记忆单元,用来增强代理的屏幕识别能力和从历史中导航焦点内容的能力。详细步骤如下所述:05-Mobile-Agent-v2算法应用案例  上图展示了Mobile-Agent-V2针对某聊天平台上没有回复的消息进行自动回复。用户的输入指令是“回复WhatsApp中未读的消息”详细的流程如下所述:上图展示了Mobile-Agent-V2完成在Twitter上搜索马斯克,并成功关注他的整个过程。详细的步骤如下所述:05.03-在TikTok上搜索名人视频并添加评论上图展示了Mobile-Agent-V2在TikTok上搜索某个名人的视频,并在评论下添加评论的整个过程。用户的输入指令是“在TikTok上打开与马斯克相关的视频,并在下面添加评论”详细的步骤如下所述: 首先,Agent需要准确找到手机主界面上TikTok所在的具体位置,实际效果如第一行第一列的图片所示。 然后,Agent需要找到搜索框,并输入Musk的字样,实际效果如第一行第二列与第三列的图片所示。
接着,Agent需要点击进入该视频,并找到视频页面中添加评论的位置,实际效果如第二行第四列和第五列所示。
最后,进入了评论区之后,Agent需要理解该视频的内容,才能增加适当的评论。实际效果如第二行第二列和第三列所示。
05.04-在小红书上搜索特定内容博客 上图展示了Mobile-Agent-V2在小红书上面搜索一个机器学习有关的贴子,并添加相关评论的样例的整个过程。详细的步骤如下所述: 首先,Agent需要在手机页面中准确找到小红书App所在的具体位置,实际效果如图中第一行第一列所示。 然后,Agent需要找到搜索框的准确位置,并输入机器学习的字样,实际效果如图中第一行第二列和第四列所示。 接着,Agent点击进入搜索到的内容,并开始查找评论框所在的位置,实际效果如图中第二行第四列所示。 - 最后,Agent需要理解该博客的内容之后,才能在评论区中增加相应的评论,实际效果如图中第二行第二列和第三列所示。
05.05-评论微博首页的帖子 上图展示了Mobile-Agent-V2在微博App上针对第一个热门帖子进行评论的整体过程。详细的步骤如下所述:- 首先,Agent需要精准找到手机界面上微博App的位置,才能点击进去,实际效果如图中第一行第一列所示。
- 然后,Agent需要点击查看新博文,并进入到该博文中,实际效果如图中第一行第二列和第三列所示。
- 接着,Agent需要准确找到评论区的位置,并点击进入评论区,实际效果如图中第二行第三列所示。
- 最后,Agent需要理解博文内容,并添加恰当的评论内容,实际效果如图中第二行第二列所示。
上图展示了Mobile-Agent-V2在B站上检索并关注雷军的整个过程。图片上面的输入指令有些问题!详细的步骤如下所述: 上图展示了Mobile-agent-v2中Agent角色的操作过程和交互说明细节。图中分别展示了规划agent、决策agent、反思agent所对应的规划阶段、决策阶段和反思阶段。 规划agent--它的目标是通过雇佣一个独立的agent来减少决策过程中对长期历史操作的依赖。它接收用户的输入指令、上一次的操作结果、完整的任务等信息。经过处理之后,它会输出相应的规划步骤。作者观察到,尽管每一轮操作都发生在不同的页面上,而且不同,但多次操作的目标往往是相同的。 决策agent--它在决策阶段进行操作,生成操作O并在设备上实现它们,同时还负责更新存储器单元中的焦点内容FC。如图中将想法输入到决策agent中,决策agent会输出结论,并将其应用在下一个截屏上面。同时会更新内存单元。 - 反思agent--作者设计反思agent来观察决策代理操作前后的屏幕状态,以确定当前操作是否符合预期。如图中所示,在反思阶段中,反思agent会对决策agent的结论进行评判,如果正确则结束任务;如果错误则重新执行上面的步骤。

上图展示了Mobile-agent-v2在一个需要操作多个App的复杂样例上面的详细执行过程。用户的输入是“在微信中查找xxx,退出微信,并在B站中寻找一个相关的视频”。详细的步骤如下所述: 首先,Agent需要找到手机界面中微信的准确位置,并点击进入微信。 然后,Agent需要寻找到xxx的聊天信息,理解该聊天信息,并退出微信。 接着,Agent需要找到手机界面中B站App的准确位置,并点击进入B站。 最后,Agent需要找到B站的搜索窗口位置,并输出理解的微信内容。
整个过程中需要规划agent、决策agent和反思agent协同工作,涉及到在多个App中执行复杂操作。更多的细节请看上面的图片。 上表展示了Mobile-Agent与Mobile-Agent-v2在一些基础与复杂指令上面的各项评估指标。App包括系统App、外部App、多个App等。通过观察与分析,我们可以发现:Mobile-Agent-v2在多项指标中都明显优于Mobile-Agent。上表展示了利用不同MLLM模型来赋能Mobile-Agent-v2的客观指标评估结果,通过观察与分析,我们可以发现:与其它MLLM相比,GPT-4V具有较大的优势,各项指标明显优于其它模型。上表展示了规划Agent、反思Agent和存储单元的重要性。通过观察与分析,我们可以发现:同时增加了规划Agent、反思Agent和存储单元的Mobile-Agent-v2能够在各项基础任务和复杂任务重取得优异的效果。这从侧面反映了这3个模块的重要性。 |