我要投稿

本地部署 Firecrawl 爬虫让 AI 知识库更丰满

发布日期：2024-09-14 06:41:34 浏览次数： 7399 作者：三金得鑫

哈咯～大家好，我是三金。

之前在《38.2k 的 AI 开发平台 Dify 教程三：将 Notion 和网站作为知识库》文章中提到了 Dify 的「同步 Web 站点」功能，它主要是通过咱们今天要介绍的爬虫产品——Firecrawl 来实现的。

什么是 Firecrawl？

Firecrawl 是一款 可以将网站转换为 Markdown 格式的爬虫工具 ，主要 提供 API 服务 ，无需站点地图，只需要接收一个 URL 地址就可以爬取网站及网站下可访问的所有子页面内容。

与传统爬虫工具相比， Firecrawl 很擅长处理 JavaScript 动态生成的网站 (本地部署的不行-详情参考 issues/226)，即使用类似 Vue 和 React 等前端框架搭建的网站。

功能演示

Scrape

Scrape API 只能抓取单个网页的内容 ，主要通过输入需要爬取的 URL 即可将该网页转换为 Markdown，非常适合 LLM 应用。

Crawl

Crawl API 可以抓取整个站点的页面 ，只需要给一个 Home 页地址，Firecrawl 就可以开始爬取该网站下的所有子页面，默认的最大抓取页面数是 10，最大爬取深度是 2，这些都可以通过设置 API 参数来进行修改。

Crawl API 并不会返回爬取的结果，而是返回一个爬取任务 ID ，我们可以通过调用 /crawl/{task_id}的 API 来获取实际的爬取数据。

Map

Map API 可以用来获取网站地图 ，只需要输入一个基本的 URL 即可，它会返回能抓取到的绝大多数链接。

使用线上产品

我们可以访问 Firecrawl 的官网（https://www.firecrawl.dev/）来体验它。

如图， 点击「Start for free(500 credits)」进入到 Firecrawl 提供的演练场进行体验 。三种功能在上面已经介绍过，就不再赘述。

在注册登录之后，会进入到个人的概览页面，在这里能看到你的 API Key 和 7 天爬取日志 ：

在 Usage 页面可以看到积分使用情况 ：

有了 API Key 之后我们就可以将其集成到一些应用中，比如 Dify、Langchain 以及 LlamaIndex 等等。

但是需要注意的是，Firecrawl API 并不是免费使用的，新注册的用户会得到 500 积分，如果这 500 积分用完了，就需要购买他们的服务，Firecrawl 的收费如下：

本地部署

如果没有条件使用付费产品，我们也可以选择本地部署 Firecrawl。

访问 Firecrawl 的 Github（https://github.com/mendableai/firecrawl）并点击查看「CONTRIBUTING.md（https://github.com/mendableai/firecrawl/blob/main/CONTRIBUTING.md）」文件：

在这个文件中介绍了如何在本地启动一个 Firecrawl 服务：

拉取源码到本地
安装依赖
配置 .env 文件，这个用来设置环境变量
需要跑三个服务：redis、workers（负责处理爬虫任务）和主服务

三个服务全都开启之后，我们访问主服务进行测试，默认是 3002 端口：

curl -X GET http://localhost:3002/test

只要返回响应是 Hello, world! 就表明本地 Firecrawl 启动成功了。

不过由于这个部署流程还依赖一些环境及工具，比如要安装 node、安装 pnpm，每次启动时还需要跑三个服务，比较麻烦，所以三金 推荐大家直接使用 docker compose 来进行部署 。

在项目根目录下作者已经提供了 docker-compose.yaml 文件，我们只需要在 .env 文件中设置好环境变量，然后直接启动即可：

docker compose up -d

部署完之后，我们可以用 Postman 来测试一下:

单页爬取没有问题，再测试一下 crawl 和 map API：

crawl API 会返回一个任务 ID，我们需要拿这个任务 ID 来查询最终的爬取结果：

爬取结果如下：

OK～完美，有需要的小伙伴可以在本地部署试试看，结合 AI 知识库就很香～～

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-15

知识库优化之路（四）：重排序模型的加入，让检索结果更加精准

2025-04-15

AI时代，企业还有没有必要做数据治理？——数据基建决定智能天花板

2025-04-15

腾讯IMA最新版：个人知识库文件夹功能革新，开启知识管理新范式

2025-04-14

从协议标准到智能筛选：AgentCard生态的一些畅想

2025-04-14

大模型用于招采评审，这样解决“AI幻觉”问题！

2025-04-14

泼个行业冷水｜当前AI大模型对企业管理软件是改良，还没到革命

2025-04-14

使用MaxKB部署本地知识库问答系统

2025-04-14

腾讯IMA知识库高阶玩法：咨询公司必备！3步打造政策咨询知识库，客户满意度提升90%！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署 Firecrawl 爬虫让 AI 知识库更丰满

2024-09-14

用国产AI Deepseek做合同审查，强的一批！

2025-01-23

利用ChatGPT进行文献综述并完成撰写，全流程解析附指令

2024-07-10

ima.copilot一个会思考的知识库：腾讯如何重塑AI时代的知识

2024-11-07

强烈推荐 | IMA：融合 DeepSeek 满血版的个人知识库助手使用指南

2025-02-17

构建企业专属大模型知识库，解决企业知识管理与应用难点

2024-04-24

科研人员必备的40种科研工具，10大类每款都有用！最后还有几款AI大模型工具！

2024-08-04

企业知识库搭建详细指南

2024-06-23

精通RAG架构：从0到1，基于LLM+RAG构建生产级企业知识库

2024-05-15

一键打造本地专属的知识库：可接入各种大模型

2024-07-10

大家都在问

AI开始“记忆”了，对企业意味着什么？

2025-04-13

DeepSeek时代教师大模型应用素养可分为四阶段，您在哪个阶段？

2025-04-12

企业用AI卡点在数据，无高质量数据何谈Embedding？

2025-04-11

AI热潮下的冷思考：企业是否能跳过数字化转型直接拥抱AI？

2025-04-06

制造业如何打造企业知识库？DeepSeek + RAG 真的适合你吗？

2025-03-22

企业想知道，DeepSeek如何从外力变内力？

2025-03-17

AI知识库的发展，会冲击律师行业吗？

2025-03-11

Obsidian x AI IDE：知识管理的阶段性最优解？

2025-03-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB