|
为什么写这篇文章,源于我在大学任教时带过的一届学生。今天突然收到学生的消息“老师,新开源的AutoGLM你有实测的部署详请不”,看到消息的瞬间,既想起了当年给同学们授课的日子,也觉得这个问题或许是很多人正困惑的点,索性就写下了这篇文章。
2025年12月9日深夜,智谱AI将酝酿32个月的AutoGLM正式开源。这不是一次简单的代码释放,而是宣告手机AI Agent从"黑箱垄断"走向"全民共创"的历史拐点。你是否曾幻想过:说出 “打开小红书书搜附近美食”,手机就自动完成解锁、启动 app、输入关键词的全流程?现在,这个看似科幻的场景正在成为现实 —— 由开源社区打造的 Open-AutoGLM 手机智能助手框架,正让 “语音指令操控手机” 从概念走向实用。
为什么说这是"安卓时刻"?
当豆包手机助手因权限争议被封禁时,AutoGLM选择用开源给出另一种答案:把AI操作手机的能力变成公共基础设施。就像当年安卓开源打破iOS垄断,这次开源可能催生千万个"贾维斯"的变种。
🔧 技术底座全解析
AutoGLM-Phone-9B:90亿参数的视觉-语言模型,能看懂手机屏幕上的每个像素。
Phone Agent框架:把"帮我点外卖"拆解成12个原子操作:打开美团→搜索商家→选择菜品→确认支付。
ADB神经末梢:通过Android调试桥实现0.1毫米精度的点击、滑动、输入
开发者实战指南
三步部署你的专属手机Agent:
git clone https://github.com/zai-org/Open-AutoGLM.git
pip install -r requirements.txt pip install -e .
# 1. 启动模型服务 python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000
# 2. 连接手机 adb devices # 确认设备 python main.py --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开小红书搜索圣诞礼物攻略"
已解锁的50+应用场景
简单来说,它是一个能让安卓手机 “读懂屏幕、自主决策、自动操作” 的智能框架。核心原理是通过 ADB 工具控制设备,结合视觉语言模型理解屏幕内容,再用智能规划能力生成操作步骤。
隐私革命:三种部署模式
不同于云端Agent的数据黑箱,AutoGLM提供:
🛡️ 数据主权方案
“本地模式:模型+操作全在电脑,手机仅作为执行终端
“混合模式:云端模型分析+本地设备执行,数据不落地
“私有云模式:用家庭NAS搭建专属AI服务器
技术暗礁与应对
UI适配难题:淘宝首页改版导致20%操作失效 → 社区已发起"界面众包标注计划"
权限敏感操作:支付前强制弹窗确认,支持语音二次验证
算力门槛:9B模型需16GB显存,社区正在蒸馏3B轻量版
未来已来的三个信号
1.硬件厂商响应:小米、OPPO已成立专项组适配
2.应用层爆发:GitHub衍生项目3天增长200+,出现"微信自动抢红包"等魔改
3.商业模式重构:外卖平台开始测试"AI代下单"接口,可能颠覆现有交互逻辑
从 “人操作手机” 到 “手机理解人”,Open-AutoGLM 正在推动移动设备交互方式的变革。无论是简化日常操作,还是探索 AI 智能体的边界,这个开源项目都为你提供了无限可能。
现在就上手试试,让你的手机成为更懂你的得力助手吧!
|