ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">先把结论说在前面:如果你是做 Python / 后端 / 前端的初级开发,哪怕几乎没碰过“智能体”,GELab-Zero 也是一个可以真正在你电脑上跑起来、帮你点外卖、抢券、刷知乎的移动 GUI 智能体方案,而且是本地可部署的那种。 不是 PPT,不是云里雾里的概念,是能连上你安卓手机,在屏幕上自己点来点去的那种。 ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(51, 51, 51);">为什么是“GUI 智能体”,而不是再做一个 AppingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这几年,大家都在喊“手机上的智能体”。但真要落地到一个个具体应用上,就会发现有个特别现实的问题:应用生态太碎了。 不同品牌、不同系统版本、各种 UI,各种权限弹窗,真要每个 App 去做 SDK 集成,根本搞不完。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">GUI 智能体走的是一条很“笨”,但很实在的路:ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;color: rgb(63, 63, 63);" class="list-paddingleft-1">ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">• 直接模拟“人手操作”:看屏幕、理解界面、点按钮、输文字、滑动ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">• 对它来说,外卖 App 也好、地铁查询也好,本质都是一个个“界面”ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这听上去粗糙,但好处是:ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 17px;color: rgb(63, 63, 63);" class="list-paddingleft-1">• 不用每个 App 改造,现有所有 App 都能用• 能快速覆盖真实用户高频场景:外卖、打车、购物、支付、内容刷屏GELab-Zero 做的,就是把这一整套“看懂屏幕 + 决定点哪 + 真机执行”的链条做成一个你能直接拿来用的工程模板。
GELab-Zero 解决的是哪几件“脏活累活”光会“看懂” UI 还不够,真实项目里最烦的是一堆工程细节: GELab-Zero 很直接:把这些当成“脏活累活”,全部打包了。 它有两个核心部分: - • 即插即用的推理基础设施:帮你管环境配置、设备管理、任务编排
- • 预训练好的本地 GUI 智能体模型:4B 规模,可以在你的机器上直接跑
对开发者意味着什么? - • 你不用从零写一套“连手机 + 抓屏 + 下发动作”的框架
- • 你可以把精力放在“我要让它做什么任务”、“它做得好不好”上
说白了,它不是给你一个“模型文件”就完事,而是给你一整条能打通到真机上的流水线。
能力到底咋样?不是嘴上说说,有分数吹谁都会吹,关键是有没有公开基准来验货。 GELab-Zero-4B-preview 在几个常见 GUI 基准上的表现,挺值得你认真看一下: - • Android World:75.86,超过 Mobile-Agent-v3、Gemini-2.5 等模型
- • ScreenSpot-V2:93.00,和 GUI-Owl-7B 同级别
- • OSWorld-G:68.04,在一堆 7B、32B 模型里很亮眼
- • ScreenSpot-Pro:60.53,超过 GUI-Owl-32B
- • MMBench-GUI-L2:85.81,优于 SeedVL-1.5 等模型
这些名字你可能没都用过,但有个直观感受: - • 4B 这种量级,本来按常识应该“比不过大模型”
- • 但它在好几个 GUI 相关的榜上,能和 7B、32B 的模型掰手腕,甚至干翻
对本地部署来说,这个组合挺关键: - • 但功能上,不是“玩具级 Demo”,是真能做复杂任务的
它能在手机上干什么?不再是“玩玩而已”页面上列了一组很具体的任务,看着有点好玩,但其实挺硬核: - • 给你挑最近好看的科幻电影:自己理解“好看”这种主观词,翻电影 App 找内容
- • 找周末可以带孩子去玩的地方:分析“适合家庭”的场景,给出推荐
- • 在企业福利平台领餐券:跨多个页面、弹窗,找到券入口并完成申请
- • 查地铁 1 号线运行状态,顺便导航到最近的地铁站:要查实时信息,还要结合地图逻辑
- • 在饿了么下单一堆指定商品(规格有点变态的那种):品类多、条件多,需要精细筛选
- • 在知乎搜“如何学习理财”,找到第一个赞数大于 1 万的回答
- • 淘宝找“白色帆布鞋 37 码 < 100 元,并收藏第一个符合条件的商品”
这些任务有个共同点: - • 都涉及多步操作、筛选、条件判断,不是“点一个按钮就行”
如果你在做自动化、RPA、测试,或者想做一个“帮用户在手机上操作各种 App 的助手”,这些场景基本可以直接映射到你的业务脑图里。
开发者视角:搭起来其实没你想的那么重说点你最关心的:我得折腾多久,才能跑通一个任务? GELab-Zero 给了一个很老实的“快速开始”: # 克隆仓库 git clone https://github.com/stepfun-ai/gelab-zero cd gelab-zero
# 安装依赖 pip install -r requirements.txt
# 推理单个任务 python examples/run_single_task.py
当然,现实中你会卡在: 好消息是,这部分它的定位就是“帮你踩过一遍坑”,做成了统一流程: - • 4B 模型本地部署,强调低资源占用、推理速度快、设置简单
- • 支持连接多个移动设备,任务能在多机之间分发,还会自动记录交互轨迹
- • 自带 ReAct 模式、多智能体模式、定时任务等几种常见 Agent 工作流
作为开发者,你暧昧地懂一点这些词是什么意思,但上手写一套完整系统会有点虚。 那就先别想“大一统平台”,照着它现成的例子改需求,先把一个任务跑起来。
AndroidDaily:它考的不是“写邮件”,是“过日子”普通基准很多都在考“办公生产力”:写邮件、处理文档。 但你真观察自己每天摸手机的场景,会发现: - • 更多是在点外卖、刷短视频、看社交、打车、付款、看房、购物
GELab-Zero 团队搞了一个叫 AndroidDaily 的基准,专门针对这些“真实日常生活场景”:食品、交通、购物、住房、信息消费、娱乐六大类,任务都来自热门 App,强调能产生真实的线上线下结果,比如交易、预订、服务下单。 它有一个“静态测试”子集: - • 每步给你任务描述 + 截图,让模型预测这一步应该做什么(点击哪、输什么、滑不滑)
动作类型的分布也挺像我们日常操作手机: 在这个静态基准上,GELab-Zero-4B-preview 准确率 73.4%, 相当于: - • 比 UI-TARS-1.5 高 26.4 个百分点(后者 47.0%)
这不是说“GPT-4o 不行”,而是说: - • 通用大模型如果没有针对 GUI 细节优化,会栽在各种细碎的 UI 决策上
- • 而一个专门做这件事的 4B 模型,把这块吃透了
你可以怎么用:从“工具”而不是“神话”看它如果你是一个初级开发者,现在可以先别把它当成什么“下一代操作系统”之类的大词。 更务实一点:当成一个能帮你解决如下问题的“工具箱”: - • 做自动化测试:用自然语言写用例,让智能体想办法完成操作,并把轨迹记下来
- • 做运维/运营工具:比如每天定时打开某个 App 查数据、导出报表、触发一个固定流程
- • 做用户侧助手:帮用户在各种生活服务 App 里执行一段“复杂但固定逻辑”的任务
等你把一个场景跑顺了,再去想: 资源入口也都很直接: - • HuggingFace 模型:可以单独拉模型玩,或者换成你自己的推理后端
最后说一句稍微主观的感受: GELab-Zero 这种项目,对初级开发其实挺友好的。 不是因为它“简单”,而是因为它帮你把最恶心的那层工程基建包好了,你反而有机会更快地接触到“智能体 + 真实场景”这一层,而不是死在 ADB 和设备兼容性的坑里出不来。
|