微信扫码
与创始人交个朋友
我要投稿
在AI高速发展的当下,数据无疑是核心竞争力,本文将介绍几款与AI结合比较紧密的几款数据抓取工具及其特点。
ScrapeGraphAI 是一个开源的 Python 库,旨在革新数据抓取工具。在当今数据密集的数字环境中,该库通过集成大型语言模型(LLMs)和模块化的基于图的管道来自动化从各种来源(例如网站、本地文件等)抓取数据。
只需指定您需要提取的信息,ScrapeGraphAI 就能处理其余的工作,提供比传统抓取工具更灵活和低维护的解决方案。
传统的网页抓取工具通常依赖固定模式或手动配置来从网页中提取数据。ScrapeGraphAI 利用 LLMs 的强大功能,能够适应网站结构的变化,减少开发者的频繁干预。这种灵活性确保了即使网站布局发生变化,抓取工具仍然能够正常工作。
我们支持许多 LLMs,包括 GPT、Gemini、Groq、Azure、Hugging Face 等以及可以在本地机器上运行的 Ollama 模型。
如何本地布署ollama:如何使用 Ollama 本地运行 LLMs
详细介绍见:ScrapeGraphAI-一款基于AI的自动化数据爬虫工具
github地址:GitHub - VinciGit00/Scrapegraph-ai: Python scraper based on AI[1]
LLM Scraper 是一个 TypeScript 库,可以使用大型语言模型(LLM)将任何网页转换为结构化数据。
•支持多种聊天模型:本地(GGUF)、OpenAI、Groq•使用 Zod 定义的模式•完全类型安全的 TypeScript•基于 Playwright 框架•在抓取多个页面时支持流式处理•支持四种输入模式:•html
:加载原始 HTML•markdown
:加载 Markdown•text
:加载提取的文本(使用 Readability.js)•image
:加载截图(仅多模态支持)
github地址:GitHub - mishushakov/llm-scraper: Turn any webpage into structured data using LLMs[2]
Firecrawl 是由 Mendable.ai 和 Firecrawl 社区开发的一个强大工具,能够抓取并将任何网站转换为适合大型语言模型(LLM)使用的 Markdown 或结构化数据。
•强大的抓取、爬取和数据提取能力•无需站点地图,能够爬取所有可访问的子页面•清晰的数据输出
我们提供了易于使用的API和托管版本的文档和操作指南。你也可以自行托管后端。
•API•Python SDK•Node SDK•Langchain Integration ??•Llama Index Integration ?•Langchain JS Integration ??
github地址:https://github.com/mendableai/firecrawl
可以实现小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫,可供技术学习使用。
目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。
原理:利用playwright[3]搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低。
功能列表:
项目github地址:GitHub - lewis-007/MediaCrawler[4]
gpt-crawler 是一个项目,通过抓取网页文档并生成文件,导出成output.json然后上传到openAI生成你的gpts。
打开 config.ts
并编辑 url
和 selector
属性以匹配你的需求。然后执行npm start即可生成output.json。
爬取将生成一个名为 output.json
的文件。你可以将其上传到 OpenAI 创建自定义 GPT 或助手。
1.访问 OpenAI Chat[5]2.点击左下角你的名字3.选择 "My GPTs"4.选择 "Create a GPT"5.选择 "Configure"6.在 "Knowledge" 下选择 "Upload a file" 并上传生成的文件
1.访问 OpenAI 平台[6]2.点击 "+ Create"3.选择 "upload" 并上传生成的文件
项目地址:GitHub - BuilderIO/gpt-crawler: Crawl a site to generate knowledge files to create your own custom GPT from a URL[7]
是一个基于GPT-4V的 Web Agent,它可以自动化抓取网页数据,可用于捕获全页面截图。使用带有隐身插件的 Puppeteer,以避免被反机器人机制检测。设计高效,具有可自定义的超时设置。
项目地址:GitHub - vdutts7/gpt4V-scraper: AI agent that can SEE ?️, control, navigate, & do stuff for you on your browser.[8]
一个可视化浏览器自动化测试/数据采集/爬虫软件,可以使用图形化界面,无代码可视化的设计和执行任务。只需要在网页上选择自己想要操作的内容并根据提示框操作即可完成任务的设计和执行。同时软件还可以单独以命令行的方式进行执行,从而可以很方便的嵌入到其他系统中。
可下载版本:
项目地址:GitHub - NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。[9]
常见的爬虫框架包括 Playwright、Cypress、Puppeteer 和 Selenium,它们支持多种编程语言,如 JavaScript、Python、.NET 和 Java 等。
这些工具和框架为开发者提供了多种选择,可以根据具体需求选择最合适的数据抓取解决方案。无需多言,直接上列表,大家可以自行去研究。
测试工具 | 学习简易性 | 支持的语言 |
Playwright | ✔✔ | JavaScript, Python, .NET, Java |
Cypress | ✔✔ | JavaScript |
Puppeteer | ✔✔ | JavaScript |
Selenium | ✔✔ | C#, Python, Ruby, Kotlin, JavaScript, Java |
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-23
人生搜索引擎免费用,开源版哈利波特“冥想盆”登GitHub热榜,支持中文
2024-11-23
o1圈杀疯了,阿里又开源Marco-o1
2024-11-22
Kotaemon:开源基于文档检索的聊天系统(RAG Chat)
2024-11-22
不可思议!AirLLM 如何让 70B 大模型在 4GB GPU 上顺利推理?
2024-11-22
刚刚,OpenAI公开o1模型测试方法,人机协作时代!
2024-11-21
22.4K+ Star!Chatbox:你的终极AI桌面助手
2024-11-21
Magentic-One:微软开源多智能体系统,让 AI 自己动手解决问题
2024-11-21
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-06-15
2024-07-25
2024-07-25
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22
2024-09-20
2024-09-14