链载Ai

标题: 豆包手机同款AutoGLM硬核开源:AI如何用“眼睛 大脑 手”接管你手机 [打印本页]

作者: 链载Ai    时间: 前天 14:03
标题: 豆包手机同款AutoGLM硬核开源:AI如何用“眼睛 大脑 手”接管你手机

原来使用AutoGLM,稍微用用就要收费,想不到豆包手机出来后,AutoGLM居然开源了!

你有没有想过,有一天只需要对手机说一句话,它就能自动帮你完成复杂的操作?比如“打开美团,搜索附近的火锅店,找评分最高的那家,帮我订今晚7点的位子”,然后你就可以继续做别的事,等它搞定?

这不是科幻电影,而是现在就能实现的技术。今天要和你聊的Open-AutoGLM,就是这样一个能够理解屏幕、自主操作手机的AI助手。

一、这到底是个什么东西?

简单来说,Open-AutoGLM是一个手机端的AI智能助理框架。它基于智谱AI的AutoGLM技术构建,核心能力是:能"看懂"手机屏幕上的内容,并像人一样去点击、滑动、输入,帮你完成各种任务。

想象一下,你的手机里住着一个看不见的小助手。你告诉它要做什么,它就会:

整个过程完全自动化,你只需要在开始时说明需求,最后确认支付这类敏感操作就行了。

二、它是怎么工作的?三个关键技术

1. 视觉理解:AI的"眼睛"

Open-AutoGLM使用的是AutoGLM-Phone-9B模型,这是一个多模态视觉语言模型。通俗地说,它不仅能理解文字,还能"看懂"图片。

每当需要执行操作时,系统会先给手机截个图,把这张图片发给AI模型。模型会分析图片内容:

这就像给AI装了一双眼睛,让它能像人一样"看"手机屏幕。

2. 智能规划:AI的"大脑"

光能看还不够,还得会思考。Open-AutoGLM的规划能力体现在:

任务分解: 当你说"打开小红书搜索美食攻略"时,AI会把这个需求拆解成多个步骤:

1. 启动小红书APP
2. 找到搜索框并点击
3. 输入"美食攻略"
4. 点击搜索按钮
5. 等待结果加载

上下文理解: AI会记住之前的操作。比如你说"打开淘宝",然后说"搜索蓝牙耳机",它知道要在已经打开的淘宝里搜索,而不是重新打开APP。

错误处理: 如果遇到广告弹窗、网络加载慢等情况,AI会自动判断并处理,比如关闭弹窗、等待加载完成。

3. ADB控制:AI的"手"

AI想好了要做什么,怎么真正去操作手机呢?答案是ADB(Android Debug Bridge)。

ADB是Android系统的调试工具,通过USB数据线(或WiFi)连接手机和电脑,可以让电脑发送指令控制手机。Open-AutoGLM就是通过ADB来执行具体操作:

#点击屏幕某个位置adbshellinputtap5001000#输入文字adbshellinputtext"蓝牙耳机"#滑动屏幕adbshellinputswipe5001500500500#按返回键adbshellinputkeyevent4

为了输入中文,系统还使用了ADB Keyboard这个专门的输入法,因为普通的ADB命令对中文支持不太好。

三、核心原理:一个循环的智能决策过程

整个系统的工作流程可以用一个循环来描述:

让我用一个实际例子说明。假设你的指令是:"打开美团,搜索附近的川菜馆"

第一轮循环:

第二轮循环:

第三轮循环:

第四轮循环:

第五轮循环:

每一步,AI都会根据当前屏幕的实际情况做出判断。如果中间出现了广告弹窗,它会先关闭弹窗再继续;如果网络慢了,它会等待页面加载。

四、动手实践:一步步部署你自己的手机AI助手

说了这么多理论,咱们来实战一下。我会带你从零开始,一步步搭建一个能用的系统。

准备工作清单

硬件要求:

软件环境:

第一步:配置ADB环境

ADB是连接手机和电脑的桥梁,必须先装好。

  1. 下载ADB工具

访问 Android官网 下载适合你系统的版本,解压到一个好记的位置,比如D:\adb/Users/你的用户名/adb

  1. 配置环境变量

Mac用户在终端执行:

echo'exportPATH=$PATH:/Users/你的用户名/adb'>>~/.zshrcsource~/.zshrc

Windows用户:

  1. 验证安装

打开命令行,输入:

adbversion

如果看到版本信息,说明安装成功了。

4. 连接手机

手机设置里要开启两个东西:

用数据线连接手机和电脑,手机上会弹出"是否允许USB调试"的提示,点击"允许"。

然后在电脑上输入:

adbdevices

你应该能看到类似这样的输出:

Listofdevicesattachedabcd1234device

如果显示"unauthorized",说明手机上还没允许,检查一下手机屏幕的提示。

第二步:安装ADB Keyboard

这是一个特殊的输入法,让AI能够输入中文。

  1. 下载APK文件:ADBKeyboard.apk

  2. 安装到手机:

adbinstallADBKeyboard.apk
  1. 在手机上:设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用"ADB Keyboard"

第三步:部署AI模型

这是最核心也是最复杂的部分。AI模型需要相当的计算资源。

  1. 下载模型文件

模型托管在Hugging Face上,大概18GB左右:

#先安装git-lfsgitlfsinstall#下载模型(需要一段时间)gitclonehttps://huggingface.co/zai-org/AutoGLM-Phone-9B

如果国内下载慢,可以用ModelScope镜像:

gitclonehttps://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
  1. 安装推理引擎

我推荐用vLLM,它对多模态模型支持比较好:

pipinstallvllm

如果你的显卡是NVIDIA的,确保已经安装了CUDA。可以用这个命令检查:

nvidia-smi
  1. 启动模型服务

创建一个启动脚本start_model.sh:

python3-mvllm.entrypoints.openai.api_server\--served-model-nameautoglm-phone-9b\--allowed-local-media-path/\--mm-encoder-tp-modedata\--mm_processor_cache_typeshm\--mm_processor_kwargs'{"max_pixels":5000000}'\--max-model-len25480\--chat-template-content-formatstring\--limit-mm-per-prompt'{"image":10}'\--model./AutoGLM-Phone-9B\--port8000

运行脚本:

bashstart_model.sh

首次启动会加载模型到显存,需要等几分钟。看到类似这样的输出就说明成功了:

INFO:Uvicornrunningonhttp://0.0.0.0:8000

性能建议:

第四步:安装Open-AutoGLM

终于到主程序了!

  1. 下载代码

gitclonehttps://github.com/zai-org/Open-AutoGLM.gitcdOpen-AutoGLM
  1. 安装依赖

pipinstall-rrequirements.txtpipinstall-e.
  1. 测试一下

pythonmain.py--base-urlhttp://localhost:8000/v1--modelautoglm-phone-9b"打开设置"

如果一切正常,你会看到系统开始工作:截图、分析、执行操作。手机上的设置APP应该会自动打开。

第五步:实际使用示例

现在我们来做几个实际任务,感受一下AI助手的能力。

示例1: 美团订餐

pythonmain.py--base-urlhttp://localhost:8000/v1\--modelautoglm-phone-9b\"打开美团,搜索附近评分最高的川菜馆"

系统会:

  1. 启动美团APP

  2. 点击搜索框

  3. 输入"川菜馆"

  4. 等待搜索结果

  5. 按评分排序

整个过程你会在终端看到详细的日志:

==================================================💭思考过程:--------------------------------------------------当前在桌面,需要启动美团应用--------------------------------------------------🎯执行动作:{"action":"Launch","app":"美团"}====================================================================================================💭思考过程:--------------------------------------------------美团已打开,看到顶部有搜索框,坐标大约在[540,150]--------------------------------------------------🎯执行动作:{"action":"Tap","element":[540,150]}==================================================...(继续执行其他步骤)

示例2: 淘宝购物

#也可以用PythonAPIfromphone_AgentimportPhoneAgentfromphone_agent.modelimportModelConfig#配置模型model_config=ModelConfig(base_url="http://localhost:8000/v1",model_name="autoglm-phone-9b",)#创建Agentagent=PhoneAgent(model_config=model_config)#执行任务result=agent.run("打开淘宝搜索蓝牙耳机,找销量最高的")print(f"任务结果:{result}")

示例3: 自定义敏感操作处理

对于支付、删除等敏感操作,系统会请求确认:

defmy_confirmation(message):"""自定义确认函数"""print(f"\n⚠️需要确认:{message}")choice=input("是否继续?(y/n):")returnchoice.lower()=='y'defmy_takeover(message):"""需要人工接管时的处理"""print(f"\n🤚需要人工操作:{message}")input("完成后按回车继续...")agent=PhoneAgent(model_config=model_config,confirmation_callback=my_confirmation,takeover_callback=my_takeover)#这个任务会在支付前请求确认agent.run("打开美团订一份外卖")

运行时如果遇到支付环节,会暂停并提示:

⚠️需要确认:即将支付28.5元是否继续?(y/n):n❌用户取消了操作

五、它能做什么?支持的场景

Open-AutoGLM目前支持50多个主流中文APP,覆盖生活的方方面面:

生活服务类:

电商购物类:

社交娱乐类:

工具类:

查看完整列表:

python main.py --list-apps

六、可以执行的操作类型

系统支持人类在手机上的所有基本操作:

操作

描述

示例场景

Launch

启动APP

打开淘宝

Tap

点击

点击搜索按钮

Type

输入文字

输入搜索关键词

Swipe

滑动

向下滚动查看更多

Long Press

长按

长按删除消息

Double Tap

双击

双击点赞

Back

返回

返回上一页

Home

回桌面

退出当前APP

Wait

等待

等待页面加载

Take_over

人工接管

需要输入验证码

七、远程控制:通过WiFi使用

除了USB连接,Open-AutoGLM还支持通过WiFi远程控制手机,这在很多场景下非常有用。

使用场景:

配置步骤:

  1. 手机开启无线调试






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5