返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

让 AI 接管 Windows 和 MacOS,这个 GitHub 开源项目牛啊。

[复制链接]
链载Ai 显示全部楼层 发表于 7 天前 |阅读模式 打印 上一主题 下一主题

这个叫TuriX-CUA 的开源项目也是一个让 AI 替你玩电脑的 AI 智能体。

它也是给 AI 装上眼睛和手,让它像人一样看着屏幕,动鼠标、敲键盘,帮你把活儿干了。

前两天,TuriX-CUA刚更新了一波大的,引入了多模型架构,在测试集通过率超过 了 80%,确实有点东西。

开源地址:https://github.com/TurixAI/TuriX-CUA

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 2em;visibility: visible;">01

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(34, 34, 34);background-color: rgb(255, 255, 255);visibility: visible;">ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;color: rgba(0, 0, 0, 0.9);font-size: 17px;visibility: visible;">开源项目简介

TuriX-CUA(Computer Use Agent)是一个基于 Python 的开源 Agent。它的核心逻辑非常暴力美学:

看(See):每隔几秒截一张你屏幕的图。

想(Think):把截图扔给多模态大模型,问它:“老铁,用户让我订机票,现在屏幕上这情况,我下一步该点哪?”

动(Act):模型返回坐标,TuriX 控制你的鼠标移过去点击,或者在输入框里打字。

听起来是不是像个宏?不,宏是死的,它是活的。遇到弹窗它知道关,遇到网页加载慢它知道等,这就很灵性。

而且在成功率和速度方面比其它开源 Agent 要好:

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 2em;visibility: visible;">02

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(34, 34, 34);background-color: rgb(255, 255, 255);visibility: visible;">ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;color: rgba(0, 0, 0, 0.9);font-size: 17px;visibility: visible;">为什么它值得关注?

跨平台支持

最开始这项目是专门搞MacOS的,但到了2025年下半年,它已经支持 Windows 了。

这对于咱们大多数用 PC 打工的人来说太重要了。只要切换到 Windows 分支,就能在 Windows 上跑。

MacOS 端支持

预订机票、酒店和 Uber。

搜索 iPhone 价格,创建 Pages 文档,并发送给联系人
把 Discord 中老板发送的数字文件中生成柱状图,并插入到我的 PowerPoint 的合适位置,然后回复老板。

Windows 端支持

在 YouTube 搜索视频内容并点赞

支持 MCP 协议

支持 MCP 意味着你可以把 TuriX 当成一个工具人挂载到 Claude for Desktop 或者 Cursor 上。

你可以直接对Claude说:“帮我查一下最近的 AI 新闻,然后写个文档发给老张。”

Claude通过 MCP 指挥 TuriX 去浏览器搜索、去 Word 里打字、去微信里发消息。这简直就是左右互搏术,效率翻倍:

除此之外,它还支持多模型架构(Multi-Agent),Planner(规划师)负责把大任务拆解成步骤。

Executor(执行者)负责具体的点击和输入。这种脑手分离的设计,大大降低了模型发癫乱点的概率。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 2em;visibility: visible;">03

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;color: rgb(34, 34, 34);background-color: rgb(255, 255, 255);visibility: visible;">ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;color: rgba(0, 0, 0, 0.9);font-size: 17px;visibility: visible;">如何使用

虽然 GitHub 上有文档,但有些坑还得我替你们踩。这里以 Mac 为例,Windows 逻辑差不多。

第一步:环境准备

首先,你得有 Python 环境。强烈建议用 Conda,不然依赖包能把你搞疯。

condacreate-nturix_envpython=3.12condaactivateturix_envgitclonehttps://github.com/TurixAI/TuriX-CUA.gitcdTuriX-CUApipinstall-rrequirements.txt

第二步:搞定模型

在 examples/config.json 里配置模型。官方默认推荐用它们自家的 API(Turix API),注册送点额度。

既然是开源,咱们其实可以换成自己的模型。如果你有 OpenAI 兼容的接口,或者本地跑了个 Qwen3-VL,改改 main.py 里的 build_llm 函数就能用。

注意:现在的 Qwen3-VL 在处理 UI 界面上的能力非常强,识别小图标贼准,强烈推荐试试。

第三步:权限地狱

因为 TuriX 要控制鼠标键盘,还要录屏,Mac 的安全机制会疯狂报警。

去 系统设置 -> 隐私与安全性 -> 辅助功能,把你的终端和 IDE都勾上。如果你要操作 Safari,记得在 Safari 的开发菜单里勾上允许远程自动化。

第一次运行时,系统可能会弹窗问你是否允许控制电脑,一定要点允许,不然鼠标只会原地抽搐。

第四步:开跑

配置好任务,比如在 config.json 里写上:

{"agent":{"task":"打开Safari,搜索一下iPhone17Pro现在的价格,然后打开备忘录记下来"}}

然后运行:

pythonexamples/main.py

这时候,你双手离开键盘,就会看到鼠标自己动了起来,像幽灵一样打开浏览器,输入文字,真有点赛博朋克的感觉。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ