链载Ai

标题: 浅谈基于 Phone Use 的 Agent 窘境 [打印本页]

作者: 链载Ai    时间: 昨天 22:03
标题: 浅谈基于 Phone Use 的 Agent 窘境

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">如果你有一个能替你操作手机的 Agent,你会用它来做什么?

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">已经在尝试做 Phone Use 通用 Agent 的团队不少,有模型公司,也有更具备硬件权限优势的手机厂商。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">看起来好像很酷,感觉“未来已来”。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">但在这个梦想照进现实之前,我们或许该先问一个更实诚的问题:

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">——什么情况下,我们会真的习惯让 AI 来替我们操作“手机”?

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">本文仅意在对该场景下的 Agent 形态与应用方向展开讨论,不进行任何指代


什么情况下,我们可能需要一个 Agent?

先不局限于 Phone Use,用 Agent 的需求出发点无外乎“我不会”、“我现在不方便”、“我不想自己做”三大场景。

我做了一张图,用来划分任务场景:

Image

但细分到每个人,因为能力、时间精力的差异,同一项任务往往也会有不同的归类。(注意,图中是“想让 Agent 做”,不意味着现在 AI 一定能做好)


举一些 Phone Use 相关,大家能想到、且需求较为靠谱的 Agent 任务例子:


1)“我不会”:

一个适合 Agent 去“知识平权、科技向善”的叙事角度。


2)“我现在不方便”:

一人一双手,手忙脚乱之时,自然想要外力帮助。

手机不在手边,想要远程开始播放音乐?还是算在“我不想自己做”中吧


3)“我不想自己做”:

我有空,也知道该怎么做,但就是因为“懒”、“怕麻烦”,不想自己操作,比如:


上述场景的需求都是真实存在的。

我们当然会希望有个为我所用的“聪明劳动力”,外包那些我“不会”、“没时间”、“不值得”的任务。


但 Phone Use Agent 方案,真能比人类自己操作,更胜任这些任务吗?



Phone Use 方案的局限与无奈

在 Agent 赛道一路狂飙的这半年里,按照 Agent 执行任务的“姿势”,或者说它与软件互动的方式,我们可以不严谨地分为三类:

Image
  1. 1.Function Call 类:通过预接入的 API,或者 MCP 等接口,与所需的资源与环境直接交互。比如 Deep Research 类产品、早期扣子空间、昆仑天工。
  2. 2.底层命令类:在一个有根权限的行动空间内,直接用底层命令调度资源、监视进程。比如 Manus 的 Linux 沙箱。
  3. 3.GUI 类:利用多模态大模型,通过对操作界面的视觉理解 + 模拟人类点击、输入,完成交互。

当然,现在在电脑、Web 端的 Agent,现在已经大多使用了混合方案,模型会针对任务类型,自动决策执行的方式,以起到效率优化、成本控制、意外兜底的综合目的)


其中 GUI 方案的 Agent,通过视觉理解 + 模拟人类操作,绕过对 API 的需求,实现对上个(互联网)时代的软件交互,更像是一种“兜底”路线。


在 Phone Use 场景中,App 孤岛的问题早就老生常谈,没有足够的系统级进程权限时,GUI 方案实是无法打通 APP 生态后的妥协:

(此前亦有 OPPO 与阶跃合作的新闻,暂不知两家研发深度与进度如何)

Image

1)效率的局限:

无论是游戏影视(星际争霸:“卡拉连接着我们”;修仙小说:“神识传声”),还是现实中的前沿探索(脑机接口),不难发现在我们的想象中,最高效的信息协作,是瞬间、海量的直接数据交互。

而让一个 AI 去学习、理解、点击一个为人类视觉和触觉设计的图形界面,本身就是在强迫数字生命去适配一个低效的交互方式。

这个形式下,信息交换缓慢、数据量局限、且极度易错:


e.g. 你让 AI 帮你去挑午餐外卖,请问它是下滑到第几屏才算看的店铺够多了?(更别提我们有时候挑外卖能划拉几十屏,还是想不好吃什么)(不过感觉用 RL 训练,好像可以避开回答这个主观问题?)


2)生态的无奈:

在移动互联网时代,各个 App、小程序 都是一个个封闭的数据孤岛,它们并不对外开放自己的核心数据和功能接口。

连完善如微信、支付宝,也依然难以调动生态内小程序机构,主动开放可供 Agent 读写操作的后端 API。


所以 Agent 不得不“伪装”成一个真实用户,通过模拟点击这种原始方式,去“看到”各个 App 内的数据与服务。


Phone Use Agent,反衬着当前 AI-Native 时代的尴尬:

我们有了越来越接近通用智能的 LLM ,而 AI 还得用与原始人一样的方式与世界交互:

一只眼睛、一根手指,模拟点点戳戳手机屏幕,不打直球,困难重重。



为什么云电脑 Agent、Computer Use 还可以?

既然是“权宜之计”,为何在电脑侧,云电脑 Agent、本地 Computer Use 类产品们,依然也用上了 GUI 策略,且用户接受度还算不错?

比如:云电脑 Agent:Manus;本地 Computer Use:Claude


除了本身电脑端应用更加复杂,使得 Agent 厂商不得不用 GUI 兜底以外。

个人的另一个观点是:任务场景、用户心态和风险承受度的不同。

Image

云电脑、Computer Use Agent的场景更多偏向生产力和工作。

在这类场景下:


Image


而Phone Use的场景,更多在于个人生活(点餐、购物、社交):


这些差异,反衬的是 Phone Use 通用 Agent 所面临的窘境:

——手机用户对任务一次性完成度的期望高,耐心最低,而潜在风险却最大。



最后,Phone Use Agent 面临的信任问题

当 AI 能操作用户最私密的终端设备,使用社交、网购账号代发内容、代购商品时,亟待解决的是两个信任问题:


1. 够聪明(高效)吗?

若是 Agent 泛化能力不够、记忆力不足,太挑任务,就会导致用户面临“点一杯咖啡”、“淘宝和京东同商品比价”等需求时,还得测试、思考 Agent 的能力边界。

这在 Deep Research 场景(知识工作者本来就要花很多精力做,对结果有开放性接受度),尚愿意花时间磨合。


但在日常任务中,“我现在不方便”、“我想别人替我做”的心态下,Agent 要是没有按用户预期操作过程执行(绕弯路)、干到一半罢工、速度卡慢,那还真不如用户自己手动操作来得利索。

Image

BTW:Siri 沦为局限于“定闹钟”、“写备忘”的语音工具,无外乎它在“不聪明”这一点,从来没让人失望过。


2. 够安全吗?

好吧,现在还是挺安全的,因为大部分任务执行的泛化能力不强,往往不能自主完成全链路任务。

为了能让 Agent 能帮忙做更多的事,我们不得不把自己的验证码、密码提供给 AI or 替 AI 登录。

理论上一个基于“视觉理解 + 模拟用户点击”的 Agent 能做到任何等同人类用户权限的事。


我接受「辅助驾驶」的过程是这样的:

先是试了几次自动泊车,才在高架上“随时准备踩刹车”地开启高速领航,直到现在也不太能接受“城市内自动驾驶”。

一点点试探,并拒绝在觉得做的不那么好的场景下打开 AI 功能。车企就好在针对不同场景,都提供了单独的 AI 功能开关,并且全程给你一个方向盘和刹车兜底。


但基于设备的通用 Agent 则完全不一样了。

“用美团给自己点 1 杯瑞幸” or “用美团给全部门定下午茶”。

很明显你会觉得前者是安全行为,买错了也能接受;而后者则因为金额较高、责任较大,你会担心它定错了怎么办。


然而,通常你赋予 Agent 前者的权利时(替它登录了个人账号),它也已经有足够的权限可能性完成其他“危险”任务。

Image

在个人设备中可发生的 Agent 行为远比“辅助驾驶”更加离散。

光是在一个登录了账号后的“Bilibili”里,AI 就能替你开视频、点赞、投币、评论、关注/取关、点广告(点进一个“相亲交友“广告,就等着被机构电话骚扰两年😈)。


我们不希望 AI 做出任何预期之外的代理行为,然而现在的通用 Agent 却非常依赖“尝试-反馈”的试错循环。


AI 厂商亟待考虑在当下的技术水平下,落地有大量等同人类操作权限的 Agent 时,如何安全地限制、审查 Agent 行为,为极端情况兜上底。


……亦或是为 Agent 员工们开发一份“Agent 延误&犯错险”?


大概的思考就是这样,欢迎交流。
期待 AI 厂商能迭代出更符合直觉、贴合用户需求的方案。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5