只需3步，教你部署自己的AI手机 | 保姆级教程

显示全部楼层

今天上号了，给大家带来一篇AI手机的部署教程，手把手教学，教不会退网。

最近我开始琢磨 ROI 的事情，不知道是在哪个地方看到了这样一句话：提高自己高 ROI 的付出，减少自己低 ROI 的内耗。

ROI 是什么？投资回报率。在一些低价值的地方内耗自己、禁锢自己，不值当。比如，预定会议发给领导，全网搜同款商品比价，规划行程并同步到社交账户。

我就想，这些事为什么不能交给 AI 呢？

于是我折腾了好几天，今天给大家带来了答案，先看效果。

我让 AI 给我预定今天的会议，并把会议链接发到工作室群里。左边是真机的执行效果，右边是AI跑的全过程。

所有过程，0接管，全自动。

为了防止有人杠，我还录了几段视频。

这种看着手机自己干活的感觉，像极了当初老板在办公室看我干活的样子，有一种莫名的爽感。

对了，这里面的所有数据都是在本地跑的，不上网，非常安全。

一手教程

怎么做的？先简单说一下要用到的模型、环境、工具以及关键步骤。

跟大象装进冰箱一样，这个 AI手机的部署也是分为三步：

1、搭建大模型推理环境（小白建议用Ollama，高手用vllm）。
2、搭建安卓执行环境（抱歉，尊贵的iOS用户暂时还不能体验）。
3、搭建GUI Agent运行环境。

需要用到的模型和工具有：

0、前置环境：Python。
1、推理模型：GELab-Zero-4B-preview，来自阶跃星辰，非常能打的GUI模型。
2、模型运行：Ollama。
3、安卓连电脑的工具：ADB。
4、运行Agent：GELab-Zero Agent（支持MCP），也是阶跃出品。
5、电脑配置：GPU≥8GB。
6、一根USB数据线。

看到这里，先别方。接下来，我会逐字逐句的详细讲解，并全程配有演示截图。

0）安装Python环境

首先，要确保自己安装得有3.12以上版本的 Python。

可以先在命令行里输入这段命令，查看你的Python版本号。

python--version

什么？你不知道什么是命令行界面（CLI），也不知道在哪里调用？

行，我今天就教你一个 coding 秘籍，在任意文件夹的地址栏里输入 cmd ，可以快捷调用命令行（这点记住了，后面要考），然后在这个“黑底代码框”里输入 python --version 就可以查看版本号了。

当然，高手是按Win+R键直接调出运行框，输入cmd进入。

对了，本文大部分我都是以 Windows 视角来讲的，苹果电脑也基本差不多，把一些关键按键替换一下就好了。

如果已安装了 Python（已装过Trae、VS code、Claude Code的，大概率都装过Python），命令行会这样显示。

如果没有安装 Python，推荐使用miniforge来安装。安装过程需要注意勾选，并将 conda 加入 path 的选项（后面会讲如何设置变量），以确保 conda 能够被正确激活。

详细过程见Install部分：

https://github.com/conda-forge/miniforge

安装后需要激活 conda，在 powershell（按Win+R输入powershell）输入：

# 在 powershell 中激活condacondainitpowershell
# 允许conda 脚本随powershell 启动Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

注意！别把#里面的内容一起复制了，那是解释这段命令的。

Mac 和 Linux 用户，则用这个命令下载并安装 miniforge：

curl-L-O"https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname-m).sh"bashMiniforge3-$(uname)-$(uname-m).sh

安装完成后，新建并激活一个 Python 环境：

condacreate-ngelab-zeropython=3.12-ycondaactivategelab-zero

1）搭建大模型推理环境

安装好 Python 环境后，接下来就是在你的电脑里装一个大模型，让它能够对手机的 GUI 界面进行识别、推理。

一般，本地大模型的部署主要通过Ollama和vllm。Ollama 适合个人，vllm 适合企业或有一定技术背景的人。

我知道，你肯定只想了解 Ollama。

跟大象装进冰箱一样，Ollama 就是大模型的冰箱，它把大模型分配到 GPU/CPU 里进行运算、干活。

记得，一定要让Ollama开着，不能关掉。别问为什么，因为我吃过亏——我把 Ollama 从后台关掉了，然后 CLI 那边就拼命报错……

安装 Ollama，非常简单。直接前往ollama.com，下载安装，就可以了。

装好后，记得设置一下Ollama的本地模型文件夹，别让它默认放在C盘。不然你C盘要爆的。

然后，下载并部署gelab-zero-4b-preview模型，建议通过 huggingface cli的方式下载。

如果没有安装过huggingface cli，先执行这个命令：

pipinstallhuggingface_hub

然后，从huggingface下载gelab-zero-4b-preview 模型权重，命令是：

hfdownload--no-force-downloadstepfun-ai/GELab-Zero-4B-preview--local-dirgelab-zero-4b-preview

模型下载好了，是这样的页面。

接着，将模型导入到Ollama。先输入这个命令。

cdgelab-zero-4b-preview

再输这个命令：

ollamacreategelab-zero-4b-preview-fModelfile

这里，可能大部分人都会报错，这是因为Ollama.exe地址不对。

建议自己在C盘找或者搜一下Ollama.exe这个文件，一般在AppData文件夹下的Local文件夹里。

找到后，复制这段路径。

然后重新输入命令：

C:\Users\Administrator\AppData\Local\Programs\Ollama\Ollama.execreategelab-zero-4b-preview-fModelfile

模型数据就开始往Ollama导了。

4B模型，建议GPU在12GB以上，跑得比较顺畅。当然，8G也能跑，就是会有点慢。

如果GPU算力不够，建议你做一些量化处理。

# 使用int8 精度量化模型（精度损失较小，模型尺寸变为4.4G ）：ollamacreate -q q8_0 gelab-zero-4b-preview
# 使用int4 精度量化模型（精度损失较大，模型尺寸变为2.2G ）：ollamacreate -q Q4_K_M gelab-zero-4b-preview
# 换回原始精度：ollamacreate -q f16 gelab-zero-4b-preview

等它导入完成后，模型就安装好了。已经可以在Ollama里用了。

打开Ollama，可以看到模型里多了一个“gelab-zero-4b-preview”，你可以随便问几个问题测试一下。

它能正常吐token，那就代表gelab-zero-4b-preview模型已部署成功。

u1s1，阶跃这个GUI模型是真滴强，在多个GUI bench上拿到SOTA表现。

而且，才4B，非常实用，非常平民了。

2）搭建安卓设备执行环境

有了Python环境，也有了本地模型，接下来就是给手机和电脑牵线搭桥了，这一步很关键。

简单来说就是，一在手机里打开开发者模式，二在电脑里安装ABD工具。这样，就能够通过电脑直接操作手机/模拟器。

首先，打开一台任意的安卓机，进入「设置」页面。

找到「我的设备」或「关于手机」选项，狂点版本号5次以上，直到出现“您已处于开发者模式”为止。

然后返回「设置」页面，找到或搜索「开发者选项」，点击进入。

在「开发者选项」中，找到并开启「USB调试」功能。接下来，屏幕会出现一些重要提示，全部同意。

接下来，给电脑安装ABD（Android Debug Bridge，安卓调试桥）工具，它是链接电脑与 Android 设备的通信渠道。

Windows用户，直接下载ABD工具压缩包，然后解压并加入系统环境变量即可。

下载地址：

https://dl.google.com/android/repository/platform-tools-latest-windows.zip

如何设置环境变量呢？跟大象装进冰箱一样还是分为三步。

首先，找到电脑的「高级系统设置」。

其次，点「环境变量」，找到「Path」变量。

然后，编辑Path变量，点「新建」创建一个新变量，把你的ABD工具压缩包地址添加进来就可以了。

之后，陆续点「确定」，保存更改，关闭页面。

Mac或Linux用户的话，则建议通过 Homebrew（Mac）或系统自带包管理器（Linux）来安装 ADB 工具。

如果没有安装 Homebrew，可以先执行：

ruby-e$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install)

然后，输入命令安装 ADB 工具：

brewcaskinstallandroid-platform-tools

到这里，手机的开发者模式和电脑的ADB工具都搞定了。

接下来，用USB数据线将手机链接到电脑，然后在命令行里输入：

adbdevices

如果链接成功，你会看到这样的提示。

首次链接，手机上会出现这样一段提示，点「确定」即可。

3）搭建GELab-Zero Agent 运行环境

模型配好了，电脑与手机的连接器也弄好了，接下来就是搭建模型的运行环境，也就是GUI Agent。

阶跃已经把这个GUI智能体封装好了，并且还做了开源，我们只需要克隆过来就可以了。

打开CLI输入命令：

gitclonehttps://github.com/stepfun-ai/gelab-zero

这一步可能会比较慢（GitHub比较考验上网环境），耐心等一下。

克隆完成后，输入命令进入gelab-zero agent。

cdgelab-zero

安装一下依赖。

pipinstall-rrequirements.txt

安装完成后，它会这样显示。

到此，就可以正常使用了。使用命令参考：

pythonexamples/run_single_task.py你的任务

比如，我们让它预定一个会议，并把会议链接分享到微信群。

pythonexamples/run_single_task.py打开腾讯会议，预定12月31日0点0分的会议，然后把会议链接分享到微信群“冷逸工作室”。

AI就开始自己在手机上跑起来了。

它会识别手机的每个界面，然后一步步地往下走。

这个任务一共执行了14步，我把完整的工作记录放在这里了。

（可上下滑动，查看全图）

4）搭建轨迹可视化环境（可选）

所有的任务轨迹，都会默认保存在running_log/server_log/os-copilot-local-eval-logs/目录下。

如果你想查看任务轨迹，可以使用 streamlit 来对轨迹进行可视化。

先输入命令：

cdgelab-zero

然后输入命令：

# 如果想让局域网内其他设备也能访问，输入这段命令：streamlitrun --server.address0.0.0.0visualization/main_page.py --server.port33503
# 如果只想在本机访问，使用以下命令：streamlitrun --server.address127.0.0.1visualization/main_page.py --server.port33503

然后，在浏览器中访问http://localhost:33503，输入session ID即可查看任务的工作过程。

每次任务执行都会生成唯一的 session ID，在任务结束后可以得到。

5）llama部署（可选）

阶跃的Step GUI，也支持llama.cpp部署。

详细参考阶跃在Github上的教程：

https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md

llama部署后，可以在Jan等任意支持llama的本地客户端里拉起API服务。

6）MCP配置（可选）

如果你嫌本地模型慢，想用云端模型，也可以把GELab-Zero Agent封装成MCP server，在其他客户端里调用MCP进行使用。

先启动gelab-zero。

cdgelab-zero

然后打开MCP服务。

pythonmcp_server/detailed_gelab_mcp_server.py

你如果看到了这样的界面，就代表MCP Server配置好了。

接下来，在Chabot等客户端中直接调用MCP Server就行。

比如，MCP用Gelab-MCP-Server，模型用GPT-5.1，这速度、质量简直起飞。

这种端云协同带来的好处是，它可以在保障隐私安全的同时，极大程度地拓展 GUI Agent 的能力边界。

云端大模型专注高级规划和复杂意图理解，本地模型负责具体GUI执行和原子操作，以确保所有具体操作和执行轨迹都留在本地。

这对于企业来说，非常重要。

更多用例

阶跃的Step GUI系列模型，既包括端侧模型Step-GUI Edge（原GELab-Zero-4B）、云侧模型（Step-GUI ），也包含MCP协议，支持的场景非常丰富，可在200个APP中顺利执行，是同类模型的4倍。

给大家看一些其他开发者搓的用例。

在多个电商平台搜同款比价。

规划周末的旅行计划，并同步到社交账户。

自动发公众号文章（by好友@Brad强）。

最有意思的是，有个叫@图图的开发者给机械手接上Step-GUI模型，让它自己边玩手机边刷抖音，这是GUI直接进入物理世界了。

这种通过外接具身智能的方式，可以跳过很多终端的权限，有着更高的自由度。

是不是还挺有趣的，现在就想手搓一个？建议你立即行动起来！

不到半小时，就能搓出一部自己的AI手机。

如果你觉得步骤麻烦，不想自己动手，也可以直接调用他们的Step-GUI Chat API接口。

APIKey:xxxxxxxxBaseURL:https://api.stepfun.com/v1ModelName:step-gui

目前，API正限时免费体验中。

API接入指引：

https://ai.feishu.cn/wiki/BfVHwghPdiyp2ckS3HfcJZAmnsc

写在最后

今天，Manus作价数10亿美元卖给Meta，创下了Meta第三大收购的纪录。

大半个AI圈都在庆祝，这验证了Agent领域有着极大的市场，而且是一个全新的蓝海市场。GUI Agent作为消费终端Agent的重要形态，同样有着不可估量的市场空间。

而且，它是AI Agent能否真正实现“智能代理”的关键。

阶跃星辰这次开源的Step-GUI系列模型，既有GUI基模，也有GUI Agent，还支持MCP、API（限时免费中）。我感觉它是接入门槛最低的，也是生态最全的，拉起了GUI从“模型-应用”的整个流程。

这波开源真的很赞，值得大家的Star。