|
今天上号了,给大家带来一篇AI手机 的部署教程,手把手教学,教不会退网。 最近我开始琢磨 ROI 的事情,不知道是在哪个地方看到了这样一句话:提高自己高 ROI 的付出,减少自己低 ROI 的内耗。 ROI 是什么?投资回报率。在一些低价值的地方内耗自己、禁锢自己,不值当。比如,预定会议发给领导,全网搜同款商品比价,规划行程并同步到社交账户。 我就想,这些事为什么不能交给 AI 呢? 于是我折腾了好几天,今天给大家带来了答案,先看效果。 我让 AI 给我预定今天的会议,并把会议链接发到工作室群里。左边是真机的执行效果,右边是AI跑的全过程。 所有过程,0接管,全自动。 为了防止有人杠,我还录了几段视频。 这种看着手机自己干活的感觉,像极了当初老板在办公室看我干活的样子,有一种莫名的爽感 。 对了,这里面的所有数据都是在本地跑的,不上网,非常安全。 一手教程 怎么做的?先简单说一下要用到的模型、环境、工具以及关键步骤。 跟大象装进冰箱一样,这个 AI手机 的部署也是分为三步: 需要用到的模型和工具有: 看到这里,先别方。接下来,我会逐字逐句的详细讲解,并全程配有演示截图。 0)安装Python环境 首先,要确保自己安装得有3.12以上版本的 Python。 可以先在命令行里输入这段命令,查看你的Python版本号。 什么?你不知道什么是命令行界面(CLI),也不知道在哪里调用? 行,我今天就教你一个 coding 秘籍,在任意文件夹的地址栏里输入 cmd ,可以快捷调用命令行(这点记住了,后面要考),然后在这个“黑底代码框”里输入 python --version 就可以查看版本号了。 当然,高手是按Win+R键直接调出运行框,输入cmd进入。 对了,本文大部分我都是以 Windows 视角来讲的,苹果电脑也基本差不多,把一些关键按键替换一下就好了。 如果已安装了 Python(已装过Trae、VS code、Claude Code的,大概率都装过Python),命令行会这样显示。 如果没有安装 Python,推荐使用miniforge来安装。安装过程需要注意勾选,并将 conda 加入 path 的选项(后面会讲如何设置变量),以确保 conda 能够被正确激活。 详细过程见Install部分: https://github.com/conda-forge/miniforge 安装后需要激活 conda,在 powershell(按Win+R输入powershell)输入: # 在 powershell 中激活condacondainitpowershell
# 允许conda 脚本随powershell 启动Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
注意!别把#里面的内容一起复制了 ,那是解释这段命令的。 Mac 和 Linux 用户,则用这个命令下载并安装 miniforge: curl-L-O"https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname-m).sh"bashMiniforge3-$(uname)-$(uname-m).sh 安装完成后,新建并激活一个 Python 环境: condacreate-ngelab-zeropython=3.12-ycondaactivategelab-zero 1)搭建大模型推理环境 安装好 Python 环境后,接下来就是在你的电脑里装一个大模型,让它能够对手机的 GUI 界面进行识别、推理。 一般,本地大模型的部署主要通过Ollama和vllm。Ollama 适合个人,vllm 适合企业或有一定技术背景的人。 我知道,你肯定只想了解 Ollama。 跟大象装进冰箱一样,Ollama 就是大模型的冰箱,它把大模型分配到 GPU/CPU 里进行运算、干活。 记得,一定要让Ollama开着,不能关掉。别问为什么,因为我吃过亏——我把 Ollama 从后台关掉了,然后 CLI 那边就拼命报错…… 安装 Ollama,非常简单。直接前往ollama.com,下载安装,就可以了。 装好后,记得设置一下Ollama的本地模型文件夹,别让它默认放在C盘。不然你C盘要爆的。 然后,下载并部署gelab-zero-4b-preview模型,建议通过 huggingface cli的方式下载。 如果没有安装过huggingface cli,先执行这个命令: pipinstallhuggingface_hub 然后,从huggingface下载gelab-zero-4b-preview 模型权重,命令是: hfdownload--no-force-downloadstepfun-ai/GELab-Zero-4B-preview--local-dirgelab-zero-4b-preview 模型下载好了,是这样的页面。 接着,将模型导入到Ollama。先输入这个命令。 再输这个命令: ollamacreategelab-zero-4b-preview-fModelfile 这里,可能大部分人都会报错,这是因为Ollama.exe地址不对。 建议自己在C盘找或者搜一下Ollama.exe这个文件,一般在AppData文件夹下的Local文件夹里。 找到后,复制这段路径。 然后重新输入命令: C:\Users\Administrator\AppData\Local\Programs\Ollama\Ollama.execreategelab-zero-4b-preview-fModelfile 模型数据就开始往Ollama导了。 4B模型,建议GPU在12GB以上,跑得比较顺畅。当然,8G也能跑,就是会有点慢。 如果GPU算力不够,建议你做一些量化处理。 # 使用int8 精度量化模型(精度损失较小,模型尺寸变为4.4G ):ollamacreate -q q8_0 gelab-zero-4b-preview
# 使用int4 精度量化模型(精度损失较大,模型尺寸变为2.2G ):ollamacreate -q Q4_K_M gelab-zero-4b-preview
# 换回原始精度:ollamacreate -q f16 gelab-zero-4b-preview
等它导入完成后,模型就安装好了。已经可以在Ollama里用了。 打开Ollama,可以看到模型里多了一个“gelab-zero-4b-preview”,你可以随便问几个问题测试一下。 它能正常吐token,那就代表gelab-zero-4b-preview模型已部署成功。 u1s1,阶跃这个GUI模型是真滴强,在多个GUI bench上拿到SOTA表现。 而且,才4B,非常实用,非常平民了。 2)搭建安卓设备执行环境 有了Python环境,也有了本地模型,接下来就是给手机和电脑牵线搭桥了,这一步很关键。 简单来说就是,一在手机里打开开发者模式,二在电脑里安装ABD工具。这样,就能够通过电脑直接操作手机/模拟器。 首先,打开一台任意的安卓机,进入「设置」页面。 找到「我的设备」或「关于手机」选项,狂点版本号5次以上,直到出现“您已处于开发者模式”为止。 然后返回「设置」页面,找到或搜索「开发者选项」,点击进入。 在「开发者选项」中,找到并开启「USB调试」功能。接下来,屏幕会出现一些重要提示,全部同意。 接下来,给电脑安装ABD(Android Debug Bridge,安卓调试桥)工具,它是链接电脑与 Android 设备的通信渠道。 Windows用户,直接下载ABD工具压缩包,然后解压并加入系统环境变量即可。 下载地址: https://dl.google.com/android/repository/platform-tools-latest-windows.zip 如何设置环境变量呢?跟大象装进冰箱一样还是分为三步。 首先,找到电脑的「高级系统设置」。 其次,点「环境变量」,找到「Path」变量。 然后,编辑Path变量,点「新建」创建一个新变量,把你的ABD工具压缩包地址添加进来就可以了。 之后,陆续点「确定」,保存更改,关闭页面。 Mac或Linux用户的话,则建议通过 Homebrew(Mac)或系统自带包管理器(Linux)来安装 ADB 工具。 如果没有安装 Homebrew,可以先执行: ruby-e$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install) 然后,输入命令安装 ADB 工具: brewcaskinstallandroid-platform-tools 到这里,手机的开发者模式和电脑的ADB工具都搞定了。 接下来,用USB数据线将手机链接到电脑,然后在命令行里输入: 如果链接成功,你会看到这样的提示。 首次链接,手机上会出现这样一段提示,点「确定」即可。 3)搭建GELab-Zero Agent 运行环境 模型配好了,电脑与手机的连接器也弄好了,接下来就是搭建模型的运行环境,也就是GUI Agent。 阶跃已经把这个GUI智能体封装好了,并且还做了开源,我们只需要克隆过来就可以了。 打开CLI输入命令: gitclonehttps://github.com/stepfun-ai/gelab-zero 这一步可能会比较慢(GitHub比较考验上网环境),耐心等一下。 克隆完成后,输入命令进入gelab-zero agent。 安装一下依赖。 pipinstall-rrequirements.txt 安装完成后,它会这样显示。 到此,就可以正常使用了。使用命令参考: pythonexamples/run_single_task.py你的任务 比如,我们让它预定一个会议,并把会议链接分享到微信群。 pythonexamples/run_single_task.py打开腾讯会议,预定12月31日0点0分的会议,然后把会议链接分享到微信群“冷逸工作室”。 AI就开始自己在手机上跑起来了。 它会识别手机的每个界面,然后一步步地往下走。 这个任务一共执行了14步,我把完整的工作记录放在这里了。 4)搭建轨迹可视化环境(可选) 所有的任务轨迹,都会默认保存在running_log/server_log/os-copilot-local-eval-logs/目录下。 如果你想查看任务轨迹,可以使用 streamlit 来对轨迹进行可视化。 先输入命令: 然后输入命令: # 如果想让局域网内其他设备也能访问,输入这段命令:streamlitrun --server.address0.0.0.0visualization/main_page.py --server.port33503
# 如果只想在本机访问,使用以下命令:streamlitrun --server.address127.0.0.1visualization/main_page.py --server.port33503
然后,在浏览器中访问http://localhost:33503,输入session ID即可查看任务的工作过程。 每次任务执行都会生成唯一的 session ID,在任务结束后可以得到。 5)llama部署(可选) 阶跃的Step GUI,也支持llama.cpp部署。 详细参考阶跃在Github上的教程: https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md llama部署后,可以在Jan等任意支持llama的本地客户端里拉起API服务。 6)MCP配置(可选) 如果你嫌本地模型慢,想用云端模型,也可以把GELab-Zero Agent封装成MCP server,在其他客户端里调用MCP进行使用。 先启动gelab-zero。 然后打开MCP服务。 pythonmcp_server/detailed_gelab_mcp_server.py 你如果看到了这样的界面,就代表MCP Server配置好了。 接下来,在Chabot等客户端中直接调用MCP Server就行。 比如,MCP用Gelab-MCP-Server,模型用GPT-5.1,这速度、质量简直起飞。 这种端云协同带来的好处是,它可以在保障隐私安全的同时,极大程度地拓展 GUI Agent 的能力边界。 云端大模型专注高级规划和复杂意图理解,本地模型负责具体GUI执行和原子操作,以确保所有具体操作和执行轨迹都留在本地。 这对于企业来说,非常重要。 更多用例 阶跃的Step GUI系列模型,既包括端侧模型Step-GUI Edge(原GELab-Zero-4B)、云侧模型(Step-GUI ),也包含MCP协议,支持的场景非常丰富,可在200个APP中顺利执行,是同类模型的4倍。 给大家看一些其他开发者搓的用例。 在多个电商平台搜同款比价。 规划周末的旅行计划,并同步到社交账户。 自动发公众号文章(by好友@Brad强)。 最有意思的是,有个叫@图图 的开发者给机械手接上Step-GUI模型,让它自己边玩手机边刷抖音,这是GUI直接进入物理世界了。 这种通过外接具身智能的方式,可以跳过很多终端的权限,有着更高的自由度。 是不是还挺有趣的,现在就想手搓一个?建议你立即行动起来! 不到半小时,就能搓出一部自己的AI手机。 如果你觉得步骤麻烦,不想自己动手,也可以直接调用他们的Step-GUI Chat API接口。 APIKey:xxxxxxxxBaseURL:https://api.stepfun.com/v1ModelName:step-gui 目前,API正限时免费体验中。 API接入指引: https://ai.feishu.cn/wiki/BfVHwghPdiyp2ckS3HfcJZAmnsc 写在最后 今天,Manus作价数10亿美元卖给Meta,创下了Meta第三大收购的纪录。 大半个AI圈都在庆祝,这验证了Agent领域有着极大的市场,而且是一个全新的蓝海市场。GUI Agent作为消费终端Agent的重要形态,同样有着不可估量的市场空间。 而且,它是AI Agent能否真正实现“智能代理”的关键。 阶跃星辰这次开源的Step-GUI系列模型,既有GUI基模,也有GUI Agent,还支持MCP、API(限时免费中)。我感觉它是接入门槛最低的,也是生态最全的,拉起了GUI从“模型-应用”的整个流程。 这波开源真的很赞,值得大家的Star。 |