我要投稿

Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

发布日期：2024-06-20 07:17:03 浏览次数： 2178 作者：AIGC创想者

项目简介

Firecrawl 是一个由 Mendable.ai 和其社区共同开发的 API 服务，它能够将整个网站转换成适用于大型语言模型（LLM）的 Markdown 或结构化数据。

该服务通过爬取网站及其所有可访问的子页面，提供干净的数据，无需网站地图。

使用场景

内容转换：将网页内容转换为 Markdown 或结构化数据，便于进一步处理和分析。
数据提取：从网页中提取所需数据，例如文章标题、评论、元数据等。
搜索引擎优化（SEO）：通过提取网站数据，分析和优化网站的 SEO 表现。
内容聚合：聚合多个网站的内容，创建综合性的信息平台。
自动化文档生成：自动化生成文档，如用户手册、帮助文档等。

使用方法

使用前提

注册Firecrawl以获取API密钥。
安装必要的软件包，比如Python SDK或Node SDK。

使用方法

1. API调用：

使用API密钥，通过cURL命令行工具或SDK调用Firecrawl API。

2. Python SDK

安装：pip install firecrawl-py
示例代码：

from firecrawl import FirecrawlApp
  
app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
    print(result['markdown'])

Node SDK：

安装：npm install @mendable/firecrawl-js
示例代码：

import FirecrawlApp from "@mendable/firecrawl-js";

const app = new FirecrawlApp({
apiKey: "fc-YOUR_API_KEY",
});

const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);

API功能

Crawling：爬取一个URL及其所有可访问的子页面，返回一个作业ID以检查爬取状态。
Scraping：抓取一个URL并获取其内容。
Search（Beta）：搜索网络，获取最相关结果，抓取每个页面并返回Markdown。
Intelligent Extraction（Beta）：从抓取的页面中提取结构化数据。

注意事项: 用户在使用Firecrawl进行抓取、搜索和爬取活动之前，应遵守适用的隐私政策和网站的使用条款。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

DeepSeek本地化部署有风险！快来看看你中招了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部