微信扫码
与创始人交个朋友
我要投稿
体验地址,或点击阅读原文直达:https://spider.sumslack.com
无需编码,直接描述爬虫即可,即可抓取数据。
使用爬虫技术抓取网页的HTML内容,支持多个网址
根据HTML切片,并进行文字转向量,通过FAISS存储向量
通过语义检索,搜索出相关的文档切片
设计提示词加上用户的提问,确保通过LLM能准确回答用户爬虫需求对应的数据内容
思考:同一句话,其实交给语义检索和最后一步的问答是需要有所区分的,所以我们将网页需要抓取的描述部分用引号,引号里的内容就是基于语义的文档片段搜索,切分需要用HTML的分隔符,这里使用['<body', '<div', '<p', '<br', '<li', '<h1', '<h2', '<h3', '……', '<footer', '<nav', '<head', '<style', '<script', '<meta', '<title', ''],最后整句话交给LLM大模型时,只需要去掉所有URL地址即可。 思考点
抓页面上特定值:如下抓取指定网页的某个行情的数据,截图中展现了提示语和抓取结果:
抓取列表数据:
通过仿真浏览器抓取网页,只需要最前面加个#即可:
根据网页内容提取摘要并翻译成英文:
针对图片上的文字,支持自动版面识别:应算力局限,不对外开放。
使用智能爬虫,让编写爬虫没有门槛
欢迎关注我的公众号“Sumslack团队”,原创技术文章第一时间推送。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-18
当产品经理谈到用LLM Agent构建新一代智能体的时候,他们在说什么?
2024-08-15
对话AI教育从业者们:AI如何解决因材施教的难题?
2024-08-03
工业应用中的向量数据库与知识向量化存储方案
2024-07-25
两大深度学习框架TensorFlow与PyTorch对比
2024-07-17
让生成式 AI 触手可及:NVIDIA NIM on VKE 部署实践
2024-07-16
中文大模型基准测评2024上半年报告
2024-07-16
一文看懂人工智能的起源、发展、三次浪潮与未来趋势
2024-07-14
"自拍" 秒变 "证件照" 看Coze如何实现
2024-05-14
2024-04-26
2024-05-22
2024-04-12
2024-07-18
2024-03-30
2024-05-10
2024-08-13
2024-04-25
2024-04-26