我要投稿

结合LangChain实现网页数据爬取

发布日期：2024-09-04 07:33:57 浏览次数： 2604

作者：霍格沃兹测试学院

微信搜一搜，关注“霍格沃兹测试学院”

LangChain 非常强大的一点就是封装了非常多强大的工具可以直接使用。降低了使用者的学习成本。比如数据网页爬取。

在其官方文档-网页爬取中，也有非常好的示例。

应用场景

信息爬取。
RAG 信息检索。

实践应用

需求说明

从 ceshiren 网站中获取每个帖子的名称以及其对应的url信息。
ceshiren论坛地址：https://ceshiren.com/

实现思路

对应源码

# 定义大模型from langchain_openai import ChatOpenAIllm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
# 定义提取方法def extract(content: str, schema: dict):from langchain.chains import create_extraction_chainreturn create_extraction_chain(schema=schema, llm=llm).invoke(content)
import pprintfrom langchain_text_splitters import RecursiveCharacterTextSplitterdef scrape_with_playwright(urls, schema):# 加载数据loader = AsyncChromiumLoader(urls)docs = loader.load()# 数据转换bs_transformer = BeautifulSoupTransformer()# 提取其中的span标签docs_transformed = bs_transformer.transform_documents(docs, tags_to_extract=["span"])# 数据切分splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=0)splits = splitter.split_documents(docs_transformed)# 因为数据量太大，输入第一片数据使用，传入使用的架构extracted_content = extract(schema=schema, content=splits[0].page_content)pprint.pprint(extracted_content)return extracted_content
urls = ["https://ceshiren.com/"]schema = {"properties": {"title": {"type": "string"},"url": {"type": "string"},},"required": ["title", "url"],}extracted_content = scrape_with_playwright(urls, schema=schema)

总结

了解网页爬取的实现思路以及相关技术。
通过LangChain实现爬取测试人网页的标题和url。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-24

进阶指南：BrowserUse + AgentRun Sandbox 最佳实践

2026-02-11

LangGraph五真相

2026-02-10

langchain4j 新版混合检索来了，RAG 准确率直接拉满

2026-02-06

探秘 AgentRun丨为什么应该把 LangChain 等框架部署到函数计算 AgentRun

2026-02-04

Agent生态碎片化终结，.agents/skills统一所有工具

2026-01-29

自建一个 Agent 很难吗？一语道破，万语难明

2026-01-28

全球首个Skills Vibe Agents，AtomStorm技术揭秘：我是怎么用Context Engineering让Agent不"变傻"的

2026-01-22

Deepagents落地场景来了：用openwork实现专属办公小管家

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

文档审核Agent2.0系统落地方案：LangChain1.1+MinerU

2025-12-21

LangChain、Dify、n8n、Coze框架对比

2025-12-21

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

2026-01-05

智能体LangChain v1.0生态解读与迁移建议

2025-12-17

别再堆 Prompt 了：用 LangChain 1.0 搭建“深度思考 Agent”

2025-12-24

2025 LangChain智能体工程年度报告发布！AI智能体从画饼到吃饼

2025-12-18

涌现观点｜LangChain 2025 报告发布：57%的企业在用Agent，但32%的人被"质量"卡住了

2025-12-20

快速上手：LangChain + AgentRun 浏览器沙箱极简集成指南

2026-01-05

Deepagents落地场景来了：用openwork实现专属办公小管家

2026-01-22

自建一个 Agent 很难吗？一语道破，万语难明

2026-01-29

大家都在问

不再搞Chain 设计的LangChain 1.0，与LangGraph有哪些区别？

2025-11-03

为什么我们选择 LangGraph 作为智能体系统的技术底座？

2025-10-29

LangChain创始人：如何让AI智能体（Agent）跑得更快？

2025-07-14

“你问我答”，LangChain 是怎么帮 AI 变聪明的？

2025-07-13

一文看懂 LangChain：为什么火？核心模块都干啥？

2025-07-05

LangChain的OpenAI和ChatOpenAI，到底应该调用哪个？

2025-06-26

【LangChain 团队重磅实测报告】多智能体架构揭秘：谁才是性能之王？

2025-06-13

首个落地案例！WEBTOON 用 LangGraph 构建故事理解 Agent，创作者 AI 时代的范式来了？

2025-05-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部