GELab-Zero ，4B 小模型，轻松把你手机变成 AI 手机，实在太强了

显示全部楼层

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">先把结论说在前面：如果你是做 Python / 后端 / 前端的初级开发，哪怕几乎没碰过“智能体”，GELab-Zero 也是一个可以真正在你电脑上跑起来、帮你点外卖、抢券、刷知乎的移动 GUI 智能体方案，而且是本地可部署的那种。
不是 PPT，不是云里雾里的概念，是能连上你安卓手机，在屏幕上自己点来点去的那种。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(51, 51, 51);">为什么是“GUI 智能体”，而不是再做一个 App

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这几年，大家都在喊“手机上的智能体”。但真要落地到一个个具体应用上，就会发现有个特别现实的问题：应用生态太碎了。
不同品牌、不同系统版本、各种 UI，各种权限弹窗，真要每个 App 去做 SDK 集成，根本搞不完。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">GUI 智能体走的是一条很“笨”，但很实在的路：

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
• 不让 App 对接你
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
• 直接模拟“人手操作”：看屏幕、理解界面、点按钮、输文字、滑动
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
• 对它来说，外卖 App 也好、地铁查询也好，本质都是一个个“界面”

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这听上去粗糙，但好处是：

• 不用每个 App 改造，现有所有 App 都能用
• 能快速覆盖真实用户高频场景：外卖、打车、购物、支付、内容刷屏

GELab-Zero 做的，就是把这一整套“看懂屏幕 + 决定点哪 + 真机执行”的链条做成一个你能直接拿来用的工程模板。

GELab-Zero 解决的是哪几件“脏活累活”

光会“看懂” UI 还不够，真实项目里最烦的是一堆工程细节：

• 多设备 ADB 连接、驱动、权限
• 推理服务怎么部署，怎么转发到手机
• 任务怎么回放、怎么记录操作轨迹
• 多机测试、多人协作时，怎么统一起跑

GELab-Zero 很直接：把这些当成“脏活累活”，全部打包了。

它有两个核心部分：

• 即插即用的推理基础设施：帮你管环境配置、设备管理、任务编排
• 预训练好的本地 GUI 智能体模型：4B 规模，可以在你的机器上直接跑

对开发者意味着什么？

• 你不用从零写一套“连手机 + 抓屏 + 下发动作”的框架
• 你可以把精力放在“我要让它做什么任务”、“它做得好不好”上

说白了，它不是给你一个“模型文件”就完事，而是给你一整条能打通到真机上的流水线。

能力到底咋样？不是嘴上说说，有分数

吹谁都会吹，关键是有没有公开基准来验货。

GELab-Zero-4B-preview 在几个常见 GUI 基准上的表现，挺值得你认真看一下：

• Android World：75.86，超过 Mobile-Agent-v3、Gemini-2.5 等模型
• ScreenSpot-V2：93.00，和 GUI-Owl-7B 同级别
• OSWorld-G：68.04，在一堆 7B、32B 模型里很亮眼
• ScreenSpot-Pro：60.53，超过 GUI-Owl-32B
• MMBench-GUI-L2：85.81，优于 SeedVL-1.5 等模型

这些名字你可能没都用过，但有个直观感受：

• 4B 这种量级，本来按常识应该“比不过大模型”
• 但它在好几个 GUI 相关的榜上，能和 7B、32B 的模型掰手腕，甚至干翻

对本地部署来说，这个组合挺关键：

• 模型不算大，资源压力可控
• 但功能上，不是“玩具级 Demo”，是真能做复杂任务的

它能在手机上干什么？不再是“玩玩而已”

页面上列了一组很具体的任务，看着有点好玩，但其实挺硬核：

• 给你挑最近好看的科幻电影：自己理解“好看”这种主观词，翻电影 App 找内容
• 找周末可以带孩子去玩的地方：分析“适合家庭”的场景，给出推荐
• 在企业福利平台领餐券：跨多个页面、弹窗，找到券入口并完成申请
• 查地铁 1 号线运行状态，顺便导航到最近的地铁站：要查实时信息，还要结合地图逻辑
• 在饿了么下单一堆指定商品（规格有点变态的那种）：品类多、条件多，需要精细筛选
• 在知乎搜“如何学习理财”，找到第一个赞数大于 1 万的回答
• 淘宝找“白色帆布鞋 37 码 < 100 元，并收藏第一个符合条件的商品”
• 在百词斩帮你做完背单词任务

这些任务有个共同点：

• 都是现实生活里你可能真会干的事
• 都涉及多步操作、筛选、条件判断，不是“点一个按钮就行”

如果你在做自动化、RPA、测试，或者想做一个“帮用户在手机上操作各种 App 的助手”，这些场景基本可以直接映射到你的业务脑图里。

开发者视角：搭起来其实没你想的那么重

说点你最关心的：我得折腾多久，才能跑通一个任务？

GELab-Zero 给了一个很老实的“快速开始”：

# 克隆仓库
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero

# 安装依赖
pip install -r requirements.txt

# 推理单个任务
python examples/run_single_task.py

当然，现实中你会卡在：

• ADB 驱动 / 设备授权
• 手机分辨率 / DPI 差异
• 网络端口 / 防火墙配置

好消息是，这部分它的定位就是“帮你踩过一遍坑”，做成了统一流程：

• 4B 模型本地部署，强调低资源占用、推理速度快、设置简单
• 支持连接多个移动设备，任务能在多机之间分发，还会自动记录交互轨迹
• 自带 ReAct 模式、多智能体模式、定时任务等几种常见 Agent 工作流

作为开发者，你暧昧地懂一点这些词是什么意思，但上手写一套完整系统会有点虚。
那就先别想“大一统平台”，照着它现成的例子改需求，先把一个任务跑起来。

AndroidDaily：它考的不是“写邮件”，是“过日子”

普通基准很多都在考“办公生产力”：写邮件、处理文档。
但你真观察自己每天摸手机的场景，会发现：

• 更多是在点外卖、刷短视频、看社交、打车、付款、看房、购物

GELab-Zero 团队搞了一个叫 AndroidDaily 的基准，专门针对这些“真实日常生活场景”：食品、交通、购物、住房、信息消费、娱乐六大类，任务都来自热门 App，强调能产生真实的线上线下结果，比如交易、预订、服务下单。

它有一个“静态测试”子集：

• 一共 3146 个操作步骤
• 每步给你任务描述 + 截图，让模型预测这一步应该做什么（点击哪、输什么、滑不滑）
• 不需要真机执行，所以适合大规模快速迭代模型

动作类型的分布也挺像我们日常操作手机：

• 点击：1354（43.0%）
• 唤醒：528（16.8%）
• 完成：410（13.0%）
• 输入：371（11.8%）
• 信息：305（9.7%）
• 滑动：93（3.0%）
• 等待：85（2.7%）

在这个静态基准上，GELab-Zero-4B-preview 准确率 73.4%，
相当于：

• 比 UI-TARS-1.5 高 26.4 个百分点（后者 47.0%）
• 是 GPT-4o（19.6%）的 3.7 倍
• 官方直接写了：静态基准第一名

这不是说“GPT-4o 不行”，而是说：

• 通用大模型如果没有针对 GUI 细节优化，会栽在各种细碎的 UI 决策上
• 而一个专门做这件事的 4B 模型，把这块吃透了

你可以怎么用：从“工具”而不是“神话”看它

如果你是一个初级开发者，现在可以先别把它当成什么“下一代操作系统”之类的大词。
更务实一点：当成一个能帮你解决如下问题的“工具箱”：

• 做自动化测试：用自然语言写用例，让智能体想办法完成操作，并把轨迹记下来
• 做运维/运营工具：比如每天定时打开某个 App 查数据、导出报表、触发一个固定流程
• 做用户侧助手：帮用户在各种生活服务 App 里执行一段“复杂但固定逻辑”的任务

等你把一个场景跑顺了，再去想：

• 怎样组合多个复杂任务
• 怎样接入你现有的后端系统
• 怎样给它加一层规则、审核、回滚机制

资源入口也都很直接：

• GitHub 仓库：代码、文档、示例都在那
• HuggingFace 模型：可以单独拉模型玩，或者换成你自己的推理后端

最后说一句稍微主观的感受：
GELab-Zero 这种项目，对初级开发其实挺友好的。
不是因为它“简单”，而是因为它帮你把最恶心的那层工程基建包好了，你反而有机会更快地接触到“智能体 + 真实场景”这一层，而不是死在 ADB 和设备兼容性的坑里出不来。