今天上号了,给大家带来一篇AI手机 的部署教程,手把手教学,教不会退网。
最近我开始琢磨 ROI 的事情,不知道是在哪个地方看到了这样一句话:提高自己高 ROI 的付出,减少自己低 ROI 的内耗。
ROI 是什么?投资回报率。在一些低价值的地方内耗自己、禁锢自己,不值当。比如,预定会议发给领导,全网搜同款商品比价,规划行程并同步到社交账户。
我就想,这些事为什么不能交给 AI 呢?
于是我折腾了好几天,今天给大家带来了答案,先看效果。
我让 AI 给我预定今天的会议,并把会议链接发到工作室群里。左边是真机的执行效果,右边是AI跑的全过程。
所有过程,0接管,全自动。
为了防止有人杠,我还录了几段视频。
这种看着手机自己干活的感觉,像极了当初老板在办公室看我干活的样子,有一种莫名的爽感
。
对了,这里面的所有数据都是在本地跑的,不上网,非常安全。
一手教程
怎么做的?先简单说一下要用到的模型、环境、工具以及关键步骤。
跟大象装进冰箱一样,这个 AI手机 的部署也是分为三步:
1、搭建大模型推理环境(小白建议用Ollama,高手用vllm)。
2、搭建安卓执行环境(抱歉,尊贵的iOS用户暂时还不能体验)。
3、搭建GUI Agent运行环境。
需要用到的模型和工具有:
0、前置环境:Python。
1、推理模型:GELab-Zero-4B-preview,来自阶跃星辰,非常能打的GUI模型。
2、模型运行:Ollama。
3、安卓连电脑的工具:ADB。
4、运行Agent:GELab-Zero Agent(支持MCP),也是阶跃出品。
5、电脑配置:GPU≥8GB。
6、一根USB数据线。
看到这里,先别方。接下来,我会逐字逐句的详细讲解,并全程配有演示截图。
0)安装Python环境
首先,要确保自己安装得有3.12以上版本的 Python。
可以先在命令行里输入这段命令,查看你的Python版本号。
python--version
什么?你不知道什么是命令行界面(CLI),也不知道在哪里调用?
行,我今天就教你一个 coding 秘籍,在任意文件夹的地址栏里输入 cmd ,可以快捷调用命令行(这点记住了,后面要考),然后在这个“黑底代码框”里输入 python --version 就可以查看版本号了。
当然,高手是按Win+R键直接调出运行框,输入cmd进入。
对了,本文大部分我都是以 Windows 视角来讲的,苹果电脑也基本差不多,把一些关键按键替换一下就好了。
如果已安装了 Python(已装过Trae、VS code、Claude Code的,大概率都装过Python),命令行会这样显示。
如果没有安装 Python,推荐使用miniforge来安装。安装过程需要注意勾选,并将 conda 加入 path 的选项(后面会讲如何设置变量),以确保 conda 能够被正确激活。
详细过程见Install部分:
https://github.com/conda-forge/miniforge
安装后需要激活 conda,在 powershell(按Win+R输入powershell)输入:
# 在 powershell 中激活condacondainitpowershell# 允许conda 脚本随powershell 启动Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
注意!别把#里面的内容一起复制了
,那是解释这段命令的。
Mac 和 Linux 用户,则用这个命令下载并安装 miniforge:
curl-L-O"https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname-m).sh"bashMiniforge3-$(uname)-$(uname-m).sh
安装完成后,新建并激活一个 Python 环境:
condacreate-ngelab-zeropython=3.12-ycondaactivategelab-zero
1)搭建大模型推理环境
安装好 Python 环境后,接下来就是在你的电脑里装一个大模型,让它能够对手机的 GUI 界面进行识别、推理。
一般,本地大模型的部署主要通过Ollama和vllm。Ollama 适合个人,vllm 适合企业或有一定技术背景的人。
我知道,你肯定只想了解 Ollama。
跟大象装进冰箱一样,Ollama 就是大模型的冰箱,它把大模型分配到 GPU/CPU 里进行运算、干活。
记得,一定要让Ollama开着,不能关掉。别问为什么,因为我吃过亏——我把 Ollama 从后台关掉了,然后 CLI 那边就拼命报错……
安装 Ollama,非常简单。直接前往ollama.com,下载安装,就可以了。
装好后,记得设置一下Ollama的本地模型文件夹,别让它默认放在C盘。不然你C盘要爆的。
然后,下载并部署gelab-zero-4b-preview模型,建议通过 huggingface cli的方式下载。
如果没有安装过huggingface cli,先执行这个命令:
pipinstallhuggingface_hub
然后,从huggingface下载gelab-zero-4b-preview 模型权重,命令是:
hfdownload--no-force-downloadstepfun-ai/GELab-Zero-4B-preview--local-dirgelab-zero-4b-preview
模型下载好了,是这样的页面。
接着,将模型导入到Ollama。先输入这个命令。
cdgelab-zero-4b-preview
再输这个命令:
ollamacreategelab-zero-4b-preview-fModelfile
这里,可能大部分人都会报错,这是因为Ollama.exe地址不对。
建议自己在C盘找或者搜一下Ollama.exe这个文件,一般在AppData文件夹下的Local文件夹里。
找到后,复制这段路径。
然后重新输入命令:
C:\Users\Administrator\AppData\Local\Programs\Ollama\Ollama.execreategelab-zero-4b-preview-fModelfile
模型数据就开始往Ollama导了。
4B模型,建议GPU在12GB以上,跑得比较顺畅。当然,8G也能跑,就是会有点慢。
如果GPU算力不够,建议你做一些量化处理。
# 使用int8 精度量化模型(精度损失较小,模型尺寸变为4.4G ):ollamacreate -q q8_0 gelab-zero-4b-preview# 使用int4 精度量化模型(精度损失较大,模型尺寸变为2.2G ):ollamacreate -q Q4_K_M gelab-zero-4b-preview# 换回原始精度:ollamacreate -q f16 gelab-zero-4b-preview
等它导入完成后,模型就安装好了。已经可以在Ollama里用了。
打开Ollama,可以看到模型里多了一个“gelab-zero-4b-preview”,你可以随便问几个问题测试一下。
它能正常吐token,那就代表gelab-zero-4b-preview模型已部署成功。
u1s1,阶跃这个GUI模型是真滴强,在多个GUI bench上拿到SOTA表现。
而且,才4B,非常实用,非常平民了。
2)搭建安卓设备执行环境
有了Python环境,也有了本地模型,接下来就是给手机和电脑牵线搭桥了,这一步很关键。
简单来说就是,一在手机里打开开发者模式,二在电脑里安装ABD工具。这样,就能够通过电脑直接操作手机/模拟器。
首先,打开一台任意的安卓机,进入「设置」页面。
找到「我的设备」或「关于手机」选项,狂点版本号5次以上,直到出现“您已处于开发者模式”为止。
然后返回「设置」页面,找到或搜索「开发者选项」,点击进入。
在「开发者选项」中,找到并开启「USB调试」功能。接下来,屏幕会出现一些重要提示,全部同意。
接下来,给电脑安装ABD(Android Debug Bridge,安卓调试桥)工具,它是链接电脑与 Android 设备的通信渠道。
Windows用户,直接下载ABD工具压缩包,然后解压并加入系统环境变量即可。
下载地址:
https://dl.google.com/android/repository/platform-tools-latest-windows.zip
如何设置环境变量呢?跟大象装进冰箱一样还是分为三步。
首先,找到电脑的「高级系统设置」。
其次,点「环境变量」,找到「Path」变量。
然后,编辑Path变量,点「新建」创建一个新变量,把你的ABD工具压缩包地址添加进来就可以了。
之后,陆续点「确定」,保存更改,关闭页面。
Mac或Linux用户的话,则建议通过 Homebrew(Mac)或系统自带包管理器(Linux)来安装 ADB 工具。
如果没有安装 Homebrew,可以先执行:
ruby-e$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install)
然后,输入命令安装 ADB 工具:
brewcaskinstallandroid-platform-tools
到这里,手机的开发者模式和电脑的ADB工具都搞定了。
接下来,用USB数据线将手机链接到电脑,然后在命令行里输入:
adbdevices
如果链接成功,你会看到这样的提示。
首次链接,手机上会出现这样一段提示,点「确定」即可。
3)搭建GELab-Zero Agent 运行环境
模型配好了,电脑与手机的连接器也弄好了,接下来就是搭建模型的运行环境,也就是GUI Agent。
阶跃已经把这个GUI智能体封装好了,并且还做了开源,我们只需要克隆过来就可以了。
打开CLI输入命令:
gitclonehttps://github.com/stepfun-ai/gelab-zero
这一步可能会比较慢(GitHub比较考验上网环境),耐心等一下。
克隆完成后,输入命令进入gelab-zero agent。
cdgelab-zero
安装一下依赖。
pipinstall-rrequirements.txt
安装完成后,它会这样显示。
到此,就可以正常使用了。使用命令参考:
pythonexamples/run_single_task.py你的任务
比如,我们让它预定一个会议,并把会议链接分享到微信群。
pythonexamples/run_single_task.py打开腾讯会议,预定12月31日0点0分的会议,然后把会议链接分享到微信群“冷逸工作室”。
AI就开始自己在手机上跑起来了。
它会识别手机的每个界面,然后一步步地往下走。
这个任务一共执行了14步,我把完整的工作记录放在这里了。
(可上下滑动,查看全图)
4)搭建轨迹可视化环境(可选)
所有的任务轨迹,都会默认保存在running_log/server_log/os-copilot-local-eval-logs/目录下。
如果你想查看任务轨迹,可以使用 streamlit 来对轨迹进行可视化。
先输入命令:
cdgelab-zero
然后输入命令:
# 如果想让局域网内其他设备也能访问,输入这段命令:streamlitrun --server.address0.0.0.0visualization/main_page.py --server.port33503# 如果只想在本机访问,使用以下命令:streamlitrun --server.address127.0.0.1visualization/main_page.py --server.port33503
然后,在浏览器中访问http://localhost:33503,输入session ID即可查看任务的工作过程。
每次任务执行都会生成唯一的 session ID,在任务结束后可以得到。
5)llama部署(可选)
阶跃的Step GUI,也支持llama.cpp部署。
详细参考阶跃在Github上的教程:
https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md
llama部署后,可以在Jan等任意支持llama的本地客户端里拉起API服务。
6)MCP配置(可选)
如果你嫌本地模型慢,想用云端模型,也可以把GELab-Zero Agent封装成MCP server,在其他客户端里调用MCP进行使用。
先启动gelab-zero。
cdgelab-zero
然后打开MCP服务。
pythonmcp_server/detailed_gelab_mcp_server.py
你如果看到了这样的界面,就代表MCP Server配置好了。
接下来,在Chabot等客户端中直接调用MCP Server就行。
比如,MCP用Gelab-MCP-Server,模型用GPT-5.1,这速度、质量简直起飞。
这种端云协同带来的好处是,它可以在保障隐私安全的同时,极大程度地拓展 GUI Agent 的能力边界。
云端大模型专注高级规划和复杂意图理解,本地模型负责具体GUI执行和原子操作,以确保所有具体操作和执行轨迹都留在本地。
这对于企业来说,非常重要。
更多用例
阶跃的Step GUI系列模型,既包括端侧模型Step-GUI Edge(原GELab-Zero-4B)、云侧模型(Step-GUI ),也包含MCP协议,支持的场景非常丰富,可在200个APP中顺利执行,是同类模型的4倍。
给大家看一些其他开发者搓的用例。
在多个电商平台搜同款比价。
规划周末的旅行计划,并同步到社交账户。
自动发公众号文章(by好友@Brad强)。
最有意思的是,有个叫@图图 的开发者给机械手接上Step-GUI模型,让它自己边玩手机边刷抖音,这是GUI直接进入物理世界了。
这种通过外接具身智能的方式,可以跳过很多终端的权限,有着更高的自由度。
是不是还挺有趣的,现在就想手搓一个?建议你立即行动起来!
不到半小时,就能搓出一部自己的AI手机。
如果你觉得步骤麻烦,不想自己动手,也可以直接调用他们的Step-GUI Chat API接口。
APIKey:xxxxxxxxBaseURL:https://api.stepfun.com/v1ModelName:step-gui
目前,API正限时免费体验中。
API接入指引:
https://ai.feishu.cn/wiki/BfVHwghPdiyp2ckS3HfcJZAmnsc
写在最后
今天,Manus作价数10亿美元卖给Meta,创下了Meta第三大收购的纪录。
大半个AI圈都在庆祝,这验证了Agent领域有着极大的市场,而且是一个全新的蓝海市场。GUI Agent作为消费终端Agent的重要形态,同样有着不可估量的市场空间。
而且,它是AI Agent能否真正实现“智能代理”的关键。
阶跃星辰这次开源的Step-GUI系列模型,既有GUI基模,也有GUI Agent,还支持MCP、API(限时免费中)。我感觉它是接入门槛最低的,也是生态最全的,拉起了GUI从“模型-应用”的整个流程。
这波开源真的很赞,值得大家的Star。
| 欢迎光临 链载Ai (http://www.lianzai.com/) | Powered by Discuz! X3.5 |