|
长话短说:
智谱发布了 AutoGLM 2.0,给 AI 配了部手机,物理破壁互联网 
让我们从一个简单的任务开始:查看我的自动续费项目 AutoGLM 打开了云端的支付宝,依次点击「我的」-「设置」-「支付设置」,再点「免密支付/自动扣款」,几秒钟后,它列出了所有的自动续费项目
中国特色的 APP 生态兼容 APP 这件事,在中国有特殊意义,我们跨越了 PC 时代,跑步进入移动互联网,习惯了在 APP 里完成一切 上线一个网站,需要进行很多备案 同时,网站需要备案,接入支付需要资质,小程序/公众号/平台网店反而更方便——于是所有服务都向超级平台聚集 最终形成了中国特色的互联网生态:全特么是大而全的超级 APP 我们的生活被深度绑定在这些 APP 里。电子发票在购物平台,审批流程在飞书,流水在微信/支付宝/银行 APP,公积金社保各有各的入口。这些 APP 的网页版要么功能残缺,要么根本不存在 12306 电子发票 以出差报销为例,需要从航司 APP 下载行程单、发票,在 12306 查询火车票,切换到飞书提交审批,最后可能还要到财务系统查看进度,每个环节都需要人工操作 理论上,我们可以等待所有 APP 开放 API,实现互联互通。 但...我们都知道:这不现实 AutoGLM 选择了另一条路:既然 APP 不愿意为 AI 开门,那就让 AI 学会敲门
AI 解法:云手机AutoGLM 的方案很巧妙:给 AI 配一部它自己的手机,让它操作 戴着智能眼镜,说一句「帮我点杯拿铁」,AI 就会在云端打开外卖 APP,定位到你的位置,下单,支付 打印机墨水快用完了?它能自动在京东下单新墨盒 车载系统里说一句话,就能预订今晚的酒店,查询沿途餐厅评价并下单,生成会议 PPT 并同步到邮箱。你无需分心操作手机,AutoGLM 在云端自动执行。智谱将这种能力封装成 API,任何设备都能接入 从 AI 眼镜到传统家电,它们首次具备了完整的「手机操作能力」 AutoGLM 让 AI 成为所有设备的「手」
云手机:巧妙的设计AutoGLM 弄了一个云手机,以解决关键问题: - 不占屏幕:你可以一边让 AI 干活,一边继续刷抖音
- 全天候运行:即使你睡着了,它也能继续执行任务
- 跨设备接入:通过 API,任何设备都能调用这个能力
具体上,还有很多小巧思,比如需要扫码时,他会调用你的摄像头 扫描登陆公众号后台 执行任务时,在云端独立运行
吩咐他就好 然后...这里有个细节:云手机会模拟真实的系统状态,包括电池电量和充电状态。有些 APP 会检测运行环境,这种「拟真」让一切更顺畅。 你可以看到电量的降低 这里补充说一下,AutoGLM 的背后,是智谱「从 Agent 到 AGI 的 3A 原则」: - Around-the-clock(全时):24 小时运行,即使用户离线,Agent 依然在执行任务
- Autonomy without interference(自主零干扰):独立运行,不占用用户屏幕与算力,平行世界的搭子
- Affinity(全域连接):跳出浏览器对话框,跨越手机、电脑、手表、眼镜、家电等设备,操作物理世界
在Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 整体表现优于ChatGPT Agent、UI-TARS-1.5 和 Claude 4 Sonnet
现在能做什么目前 AutoGLM 支持 40 多个高频应用,最擅长的是那些路径明确的任务 它能帮你完成日常琐事:比如“帮我在美团点杯瑞幸咖啡”、“查查明天北京到上海最早的航班”、“在贝壳找北京朝阳区 2500-3500 的合租房”,这些任务有明确的操作路径,AI 执行起来得心应手 但涉及复杂判断就会卡壳。比如「导出近三个月京东购物发票」这种需要精确筛选的任务,它还做不到。测试中还会遇到卡在登录页、理解错指令、重复执行同一操作的情况 这是早期产品的正常状态,很有突破,但不稳定
最后被迫的,我们在手机上处理越来越多的任务:报销、填表、查账... 上图都是体验最好的了,但还是很复杂 老年人会更难过,银行要求用 APP,医院要求线上挂号,政务要求扫码办理,然后各种 app 交互设计的良莠不齐(甚至说绝大多数一塌糊涂),让人抓狂 在这里,AutoGLM 把「人必须适应 APP」变成了「AI 帮人操作 APP」,让我不用戳来戳去找功能,真的很对 「万物互联」还遥遥无期时,让 AI 学会敲门,比等 APP 主动开门更现实
再最后,对于开发者来说,AutoGLM 移动端 API申请渠道现已正式开放,支持在云端设备上完成复杂操作,允许多步任务与定制化智能工作流的构建 |