AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


webscraper: 用于在RAG应用中将链接转成LLM友好的文本
发布日期:2024-04-17 08:01:58 浏览次数: 1761


项目简介

抓取网页,将其转换为 Markdown,并增强 AI 搜索应用程序。

用于在RAG应用中将链接转成LLM友好的文本,也是http://zbyai.com 应用中的一个依赖模块。 

原理:使用无头浏览器或者直接GET请求,然后用Readability优化,然后html转markdown。


运行

若要运行此项目,需要创建 config/dev.yaml 配置文件。您可以从 config/temp.yaml 中复制模板。

然后,使用以下命令直接在本地计算机上运行项目,要求安装 Chrome:

make dev

在浏览器中打开以下 URL:

http://127.0.0.1:4090?u=https://github.com/zzzgydi/webscraper

或者你可以将它与 curl 一起使用:

curl -X POST -H "Content-Type: application/json" \ -d '{"url_list":["https://google.com"]}' http://127.0.0.1:4090/v1/scrape


这将启动服务器并将日志输出到 output/log 目录。



部署

ws://chromedp:9222 创建一个 config/prod.yaml 文件,并在运行以下命令时将 Chrome remote_url 设置为:

docker compose up



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询