我要投稿

无需编码即可抓取数据的智能爬虫工具

发布日期：2024-04-11 23:22:37 浏览次数： 2105 来源：Sumslack团队

概述

目前市面上大多爬虫都需要通过使用xpath规则抓取网页上的内容，不论是八爪鱼，神箭手或是其他，使用这类工具虽然可一定程度上做到可视化，但往往都需要一定门槛，同时，还存在致命缺点：三方网站改版，往往需要重写爬虫，那么，我们能否借助人工智能，实现根据我们需求的描述，抓到我们想要的内容呢？答案是肯定的。

体验地址，或点击阅读原文直达：https://spider.sumslack.com

无需编码，直接描述爬虫即可，即可抓取数据。

设计思路

使用爬虫技术抓取网页的HTML内容，支持多个网址
根据HTML切片，并进行文字转向量，通过FAISS存储向量
通过语义检索，搜索出相关的文档切片
设计提示词加上用户的提问，确保通过LLM能准确回答用户爬虫需求对应的数据内容

思考：同一句话，其实交给语义检索和最后一步的问答是需要有所区分的，所以我们将网页需要抓取的描述部分用引号，引号里的内容就是基于语义的文档片段搜索，切分需要用HTML的分隔符，这里使用['<body', '<div', '<p', '<br', '<li', '<h1', '<h2', '<h3', '……', '<footer', '<nav', '<head', '<style', '<script', '<meta', '<title', '']，最后整句话交给LLM大模型时，只需要去掉所有URL地址即可。
思考点

案例展示

抓页面上特定值：如下抓取指定网页的某个行情的数据，截图中展现了提示语和抓取结果：

抓取列表数据：

通过仿真浏览器抓取网页，只需要最前面加个#即可：

根据网页内容提取摘要并翻译成英文：

针对图片上的文字，支持自动版面识别：应算力局限，不对外开放。

使用智能爬虫，让编写爬虫没有门槛

欢迎关注我的公众号“Sumslack团队”，原创技术文章第一时间推送。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

一文带你了解大模型——智能体（Agent）

2024-05-28

更改ollama模型存储路径

2024-04-25

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

大模型+安全实践之春天何时到来？

2024-12-25

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

2024-12-25

大模型的泡沫什么时候破灭？

2024-12-24

除了混合搜索，RAG 还需要哪些基础设施能力？

2024-12-24

大模型时代的软件工程教育，路在何方？

2024-12-24

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

2024-12-24

如何从头建立一个通用AI智能体应用？

2024-12-22

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

2024-12-21

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

概述

设计思路

案例展示

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

一文带你了解大模型——智能体（Agent）

更改ollama模型存储路径

最强 GPT 免费使用！GPT4O 开启多模态新时代！

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

本地部署大模型？看这篇就够了，Ollama 部署和实战

全面对比dify、coze、streamlit、chainlit

大家都在问

大模型+安全实践之春天何时到来？

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

大模型的泡沫什么时候破灭？

除了混合搜索，RAG 还需要哪些基础设施能力？

大模型时代的软件工程教育，路在何方？

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

如何从头建立一个通用AI智能体应用？

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

概述

设计思路

案例展示

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

一文带你了解大模型——智能体（Agent）

更改ollama模型存储路径

最强 GPT 免费使用！GPT4O 开启多模态新时代！

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

本地部署大模型？看这篇就够了，Ollama 部署和实战

全面对比dify、coze、streamlit、chainlit

大家都在问

大模型+安全实践之春天何时到来？

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

大模型的泡沫什么时候破灭？

除了混合搜索，RAG 还需要哪些基础设施能力？

大模型时代的软件工程教育，路在何方？

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

如何从头建立一个通用AI智能体应用？

构建行业RAG应用系统：金融、财务、保险、医疗等行业该怎么做？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示