返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

字节跳动Web Infra 团队 开发的一款开源的 AI 操作助手,GitHub 收获 9.9k Star

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(0, 152, 116);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">AI 操作助手

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;font-style: italic;padding: 1em 1em 1em 2em;border-radius: 6px;color: rgba(0, 0, 0, 0.6);background: rgb(247, 247, 247);box-shadow: rgba(0, 0, 0, 0.05) 0px 4px 6px;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(0, 152, 116);">Midscene.js一款开源的 AI 操作助手,支持通过自然语言(如英文)自动化操作 Web 和 Android 应用。它可集成 Puppeteer、Playwright,或通过 Chrome 扩展、Android Playground 无代码使用。项目支持多模态大模型(LLMs)和视觉语言模型(VL models),能自动规划并执行 UI 操作,适用于自动化测试与交互场景。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 13.5px;margin: 10px 8px;background: rgb(254, 254, 254);color: rgb(84, 84, 84);text-align: left;line-height: 1.5;overflow-x: auto;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.05) 0px 0px 10px inset;padding: 0px !important;">• 项目地址:https://github.com/web-infra-dev/midscene
• 开发者:Web Infra 团队 (字节跳动)
• Stars / Forks:9.9k ⭐ / 696 Forks
• License:MIT
• 语言 / 技术栈:TypeScript,集成 Puppeteer、Playwright、YAML 脚本、AI 模型(如 UI-TARS 转换器)

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">✨ 核心功能亮点

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • 自然语言驱动交互:使用 .ai / .aiAction 发出描述,如“点击登录按钮”即可由 AI 规划并执行操作。
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • 查询与断言功能:支持 .aiQuery 获取界面数据如列表、表格字段,.aiAssert 进行自动化断言。
  • • 支持多平台:支持 Web(Puppeteer / Playwright / Chrome 扩展)与 Android(JavaScript SDK + ADB)。
  • • 支持多模型,包括视觉语言模型:兼容 GPT-4o、Qwen 2.5-VL、UI-TARS、Gemini 2.5 Pro 等模型,可自选。
  • • 可视化调试报告:通过测试报告和 Playground,用户可以轻松理解、重放和调试整个过程。
  • • MCP 功能:允许其他 MCP 客户端直接使用 Midscene.js 的能力。
  • • 三种 API 类型:交互 API、数据提取 API 和实用工具 API,支持 aiAssert()、aiLocate()、aiWaitFor() 等功能。

安装与使用指南

  1. 1. 快速体验(无代码):安装 Chrome 扩展即可立即使用。
  2. 2. 本地部署:
  • • 安装 NPM 包:
npminstall@midscene/web
  • • 设置环境变量(如 OPENAI_API_KEY、模型选择等)
  • • 编写脚本:
await mid.aiAction('在搜索框输入“天气”,然后回车');
const title = await mid.aiQuery('查询页面标题');
await mid.aiAssert('页面标题包含“天气”');

使用流程/体验步骤

  1. 1. 安装 Chrome 扩展或 NPM 包。
  2. 2. 配置模型与环境变量。
  3. 3. 编写自动化流程脚本(自然语言描述或 YAML)。
  4. 4. 运行并调试:
    -使用 Playground 或报告查看流程;
    -选择 Bridge Mode 实时控制桌面浏览器标签页。
  5. 5. 集成到测试流程(如 Playwright / Puppeteer)。

用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。▲

控制地图 App 在 Android 上导航到目的地。▲

使用 midscene mcp 的方法,浏览页面,进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例。▲

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ