链载Ai

标题: 手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化

1. 导言

你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。

最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。

vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。

图 1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)

与此同时,各大厂家似乎提前约好一样,都瞄准了一句话订咖啡的场景,颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称,今年秋天第一杯咖啡是手机智能体帮你点的。

图 2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)

尽管行业发展迅速,最近关于手机 AI 智能体的论文井喷,相关技术路线迭代发展迅速,但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文,该论文长达 48 页,覆盖 200 余篇文献,对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究,希望给学界和产业界作为参考,共同推进行业发展。



1.1 研究背景


1.2 研究目的


1.3 主要贡献
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">图 3 大模型驱动的手机 GUI 智能体文献分类


2. 手机自动化的发展历程

2.1 LLM 时代之前的手机自动化


2.2 传统方法的挑战


2.3 LLM 推动手机自动化

图 4 大模型驱动的手机 GUI 智能体发展里程碑


2.4 新兴商业应用


3. 手机 GUI 智能体框架

3.1 基本框架

图 5 大模型驱动的手机 GUI 智能体基础框架





3.2 多智能体框架

图 6 多智能体框架分类


3.3 计划 - 然后 - 行动框架(Plan-Then-Act Framework)


4. 用于手机自动化的大语言模型

图 7 模型分类

4.1 提示工程(Prompt Engineering)

图 8 提示词设计

4.2 基于训练的方法(Training-Based Methods)


图 9 不同的 UI 理解任务




5. 数据集和基准

5.1 相关数据集

表1 数据集


5.2 基准

表 2 Benchmarks


6. 挑战与未来方向

6.1 数据集开发与微调可扩展性


6.2 轻量级和高效的设备端部署


6.3 用户中心适应:交互与个性化


6.4 模型定位、推理等能力提升


6.5 标准化评估基准


6.6 确保可靠性和安全性


7. 总结


展望未来,随着模型架构改进、设备端推理优化和多模态数据集成,基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性,融合更多 AI 范式,为用户提供无缝、个性化和安全的体验。










欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5