AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Skyvern :自动化操作你的浏览器, 3.5K Star
发布日期:2024-05-22 12:06:10 浏览次数: 1791


项目简介


Skyvern 使用LLMs计算机视觉自动执行基于浏览器的工作流程。它提供了一个简单的 API 端点,可以完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。

1. YC 投资,S23 的项目 2. 自然语言进行网页导航、过时/电商网站的数据爬取/抽取、填写表单等复杂多步操作 3. 支持绕过 CAPTCHA/Authentication 等验证操作 4. API 调用/Debug 模式

传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,每当网站布局发生变化时,这些交互就会中断。

Skyvern 不仅依赖于代码定义的 XPath 交互,还添加了计算机视觉和LLMs组合,以实时解析视口中的项目,创建交互计划并与之交互。

这种方法为我们提供了一些优点:

  1. Skyvern 可以在以前从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何自定义代码

  2. Skyvern 可以抵抗网站布局更改,因为在尝试导航时,我们的系统没有预先确定的 XPaths 或其他选择器

  3. Skyvern LLMs 利用交互进行推理,以确保我们能够涵盖复杂的情况。示例包括:

    1. 如果您想从 Geico 获得汽车保险报价,可以从 16 岁获得驾照的司机推断出“您有资格在 18 岁时开车吗?”的常见问题的答案

    2. 如果您正在进行竞争对手分析,那么可以理解的是,7/11 的 Arnold Palmer 22 盎司罐头几乎肯定与 Gopuff 的 23 盎司罐头是相同的产品(即使尺寸略有不同,这可能是四舍五入错误!


想看看 Skyvern 的实际应用吗?跳转到 #real-world-examples-of-skyvern

运作方式

Skyvern 的灵感来自于 BabyAGI 和 AutoGPT 推广的任务驱动自主代理设计——有一个主要的好处:我们让 Skyvern 能够使用 Playwright 等浏览器自动化库与网站进行交互。


安装

  1. 克隆存储库并导航到根目录

  2. 打开 Docker Desktop(适用于 Windows、macOS 和 Linux)或运行 Docker Daemon

  3. 运行安装脚本以安装必要的依赖项并设置环境

./setup.sh

4.  启动服务器

./run_skyvern.sh

5. 您可以开始向服务器发送请求,但我们构建了一个简单的 UI 来帮助您入门。若要启动 UI,请运行以下命令:

./run_ui.sh

6. 在浏览器中导航到 http://localhost:8501 开始使用 UI



项目链接

https://github.com/Skyvern-AI/skyvern


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询