微信扫码
与创始人交个朋友
我要投稿
Skyvern 使用LLMs计算机视觉自动执行基于浏览器的工作流程。它提供了一个简单的 API 端点,可以完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。
1. YC 投资,S23 的项目 2. 自然语言进行网页导航、过时/电商网站的数据爬取/抽取、填写表单等复杂多步操作 3. 支持绕过 CAPTCHA/Authentication 等验证操作 4. API 调用/Debug 模式
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,每当网站布局发生变化时,这些交互就会中断。
Skyvern 不仅依赖于代码定义的 XPath 交互,还添加了计算机视觉和LLMs组合,以实时解析视口中的项目,创建交互计划并与之交互。
这种方法为我们提供了一些优点:
Skyvern 可以在以前从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何自定义代码
Skyvern 可以抵抗网站布局更改,因为在尝试导航时,我们的系统没有预先确定的 XPaths 或其他选择器
Skyvern LLMs 利用交互进行推理,以确保我们能够涵盖复杂的情况。示例包括:
如果您想从 Geico 获得汽车保险报价,可以从 16 岁获得驾照的司机推断出“您有资格在 18 岁时开车吗?”的常见问题的答案
如果您正在进行竞争对手分析,那么可以理解的是,7/11 的 Arnold Palmer 22 盎司罐头几乎肯定与 Gopuff 的 23 盎司罐头是相同的产品(即使尺寸略有不同,这可能是四舍五入错误!
想看看 Skyvern 的实际应用吗?跳转到 #real-world-examples-of-skyvern
Skyvern 的灵感来自于 BabyAGI 和 AutoGPT 推广的任务驱动自主代理设计——有一个主要的好处:我们让 Skyvern 能够使用 Playwright 等浏览器自动化库与网站进行交互。
安装
克隆存储库并导航到根目录
打开 Docker Desktop(适用于 Windows、macOS 和 Linux)或运行 Docker Daemon
运行安装脚本以安装必要的依赖项并设置环境
./setup.sh
4. 启动服务器
./run_skyvern.sh
5. 您可以开始向服务器发送请求,但我们构建了一个简单的 UI 来帮助您入门。若要启动 UI,请运行以下命令:
./run_ui.sh
6. 在浏览器中导航到 http://localhost:8501 开始使用 UI
https://github.com/Skyvern-AI/skyvern
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26