项目简介
Skyvern 使用LLMs计算机视觉自动执行基于浏览器的工作流程。它提供了一个简单的 API 端点,可以完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。 1. YC 投资,S23 的项目
2. 自然语言进行网页导航、过时/电商网站的数据爬取/抽取、填写表单等复杂多步操作
3. 支持绕过 CAPTCHA/Authentication 等验证操作
4. API 调用/Debug 模式 传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,每当网站布局发生变化时,这些交互就会中断。 Skyvern 不仅依赖于代码定义的 XPath 交互,还添加了计算机视觉和LLMs组合,以实时解析视口中的项目,创建交互计划并与之交互。 这种方法为我们提供了一些优点: Skyvern 可以在以前从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何自定义代码 Skyvern 可以抵抗网站布局更改,因为在尝试导航时,我们的系统没有预先确定的 XPaths 或其他选择器 Skyvern LLMs 利用交互进行推理,以确保我们能够涵盖复杂的情况。示例包括: 如果您想从 Geico 获得汽车保险报价,可以从 16 岁获得驾照的司机推断出“您有资格在 18 岁时开车吗?”的常见问题的答案 如果您正在进行竞争对手分析,那么可以理解的是,7/11 的 Arnold Palmer 22 盎司罐头几乎肯定与 Gopuff 的 23 盎司罐头是相同的产品(即使尺寸略有不同,这可能是四舍五入错误!
想看看 Skyvern 的实际应用吗?跳转到 #real-world-examples-of-skyvern
运作方式Skyvern 的灵感来自于 BabyAGI 和 AutoGPT 推广的任务驱动自主代理设计——有一个主要的好处:我们让 Skyvern 能够使用 Playwright 等浏览器自动化库与网站进行交互。
安装 克隆存储库并导航到根目录 打开 Docker Desktop(适用于 Windows、macOS 和 Linux)或运行 Docker Daemon 运行安装脚本以安装必要的依赖项并设置环境
4. 启动服务器
5. 您可以开始向服务器发送请求,但我们构建了一个简单的 UI 来帮助您入门。若要启动 UI,请运行以下命令:
6.在浏览器中导航到http://localhost:8501开始使用 UI
https://github.com/Skyvern-AI/skyvern
|