AutoGLM开源：手机AI Agent的“安卓时刻”来了

显示全部楼层

为什么写这篇文章，源于我在大学任教时带过的一届学生。今天突然收到学生的消息“老师，新开源的AutoGLM你有实测的部署详请不”，看到消息的瞬间，既想起了当年给同学们授课的日子，也觉得这个问题或许是很多人正困惑的点，索性就写下了这篇文章。

2025年12月9日深夜，智谱AI将酝酿32个月的AutoGLM正式开源。这不是一次简单的代码释放，而是宣告手机AI Agent从"黑箱垄断"走向"全民共创"的历史拐点。你是否曾幻想过：说出 “打开小红书书搜附近美食”，手机就自动完成解锁、启动 app、输入关键词的全流程？现在，这个看似科幻的场景正在成为现实 —— 由开源社区打造的 Open-AutoGLM 手机智能助手框架，正让 “语音指令操控手机” 从概念走向实用。

为什么说这是"安卓时刻"？

当豆包手机助手因权限争议被封禁时，AutoGLM选择用开源给出另一种答案：把AI操作手机的能力变成公共基础设施。就像当年安卓开源打破iOS垄断，这次开源可能催生千万个"贾维斯"的变种。

🔧 技术底座全解析

AutoGLM-Phone-9B：90亿参数的视觉-语言模型，能看懂手机屏幕上的每个像素。
Phone Agent框架：把"帮我点外卖"拆解成12个原子操作：打开美团→搜索商家→选择菜品→确认支付。
ADB神经末梢：通过Android调试桥实现0.1毫米精度的点击、滑动、输入

开发者实战指南

三步部署你的专属手机Agent：

git clone https://github.com/zai-org/Open-AutoGLM.git

pip install -r requirements.txt 
pip install -e .


# 1. 启动模型服务
python3 -m vllm.entrypoints.openai.api_server \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000

# 2. 连接手机
adb devices  # 确认设备
python main.py --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b \
"打开小红书搜索圣诞礼物攻略"

已解锁的50+应用场景

简单来说，它是一个能让安卓手机 “读懂屏幕、自主决策、自动操作” 的智能框架。核心原理是通过 ADB 工具控制设备，结合视觉语言模型理解屏幕内容，再用智能规划能力生成操作步骤。

场景类型	示例指令	平均耗时
外卖点餐	"用饿了么点一杯少冰的拿铁"	23秒
社交互动	"给老板最新朋友圈点赞并评论"	18秒
出行预订	"携程订明天去上海的最早高铁"	31秒

隐私革命：三种部署模式

不同于云端Agent的数据黑箱，AutoGLM提供：

🛡️ 数据主权方案

“
本地模式：模型+操作全在电脑，手机仅作为执行终端

“
混合模式：云端模型分析+本地设备执行，数据不落地

“
私有云模式：用家庭NAS搭建专属AI服务器

技术暗礁与应对

UI适配难题：淘宝首页改版导致20%操作失效 → 社区已发起"界面众包标注计划"

权限敏感操作：支付前强制弹窗确认，支持语音二次验证

算力门槛：9B模型需16GB显存，社区正在蒸馏3B轻量版

未来已来的三个信号

1.硬件厂商响应：小米、OPPO已成立专项组适配

2.应用层爆发：GitHub衍生项目3天增长200+，出现"微信自动抢红包"等魔改

3.商业模式重构：外卖平台开始测试"AI代下单"接口，可能颠覆现有交互逻辑

从 “人操作手机” 到 “手机理解人”，Open-AutoGLM 正在推动移动设备交互方式的变革。无论是简化日常操作，还是探索 AI 智能体的边界，这个开源项目都为你提供了无限可能。

现在就上手试试，让你的手机成为更懂你的得力助手吧！