我要投稿

AI爬取网页表格内容保存为excel

发布日期：2024-10-09 20:35:35 浏览次数： 2234

作者：Dance with GenAI

微信搜一搜，关注“Dance with GenAI”

任务：网页上的表格内容下载保存为excel表格

在deepseek中输入提示词：

你是一个Python编程专家，写一个网页爬取的脚本，完成任务如下：

在F盘新建一个excel表格文件：Amplifypartnersportfolio.xlsx

打开网页：https://www.amplifypartners.com/portfolio，

定位所有的role="listitem"的div元素，在div元素中定位class="mob-name"的div标签，提取其内容，写入excel表格的第1列；

定位class="copy-wr"的div标签，提取其中标签的文本内容，写入excel表格的第2列；

定位fs-cmsfilter-field="status"的div标签，提取其内容，写入excel表格的第3列；

定位class="mob-link"的div标签，提取其内容，写入excel表格的第4列；

定位第1个class="flex-vertical gap-4"的div标签，找到所有的标签，提取每个 标签中的文本内容，过滤掉不需要的文本：“TEAM”和空字符串，然后写入excel表格的第5列；

定位第2个class="flex-vertical gap-4"的div标签，找到所有的标签，提取每个 标签中的文本内容，过滤掉不需要的文本：“Milestones”和空字符串，然后写入excel表格的第6列；

定位第3个class="flex-vertical gap-4"的div标签，找到所有的标签，提取每个 标签中的文本内容，过滤掉不需要的文本：“Articles”和空字符串，然后写入excel表格的第6列；

注意：每一步都要输出信息到屏幕上

Deepseek给出的Python源代码：

import requests

from bs4 import BeautifulSoup

import openpyxl

# 创建一个新的Excel工作簿

workbook = openpyxl.Workbook()

sheet = workbook.active

sheet.title = "Amplify Partners Portfolio"

# 设置表头

sheet['A1'] = 'Name'

sheet['B1'] = 'Location'

sheet['C1'] = 'Status'

sheet['D1'] = 'Link'

sheet['E1'] = 'Team'

sheet['F1'] = 'Milestones'

sheet['G1'] = 'Articles'

# 获取网页内容

url = 'https://www.amplifypartners.com/portfolio'

response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')

# 定位所有的role="listitem"的div元素

list_items = soup.find_all('div', role='listitem')

row = 2 # 从第二行开始写入数据

for item in list_items:

try:

# 提取class="mob-name"的div标签内容

name_div = item.find('div', class_='mob-name')

name = name_div.text.strip() if name_div else ''

print(f"Extracted Name: {name}")

sheet[f'A{row}'] = name

# 提取class="copy-wr"的div标签中标签的文本内容

location_div = item.find('div', class_='copy-wr')

location = location_div.find('p').text.strip() if location_div and location_div.find('p') else ''

print(f"Extracted Location: {location}")

sheet[f'B{row}'] = location

# 提取fs-cmsfilter-field="status"的div标签内容

status_div = item.find('div', {'fs-cmsfilter-field': 'status'})

status = status_div.text.strip() if status_div else ''

print(f"Extracted Status: {status}")

sheet[f'C{row}'] = status

# 提取class="mob-link"的div标签内容

link_div = item.find('div', class_='mob-link')

link = link_div.text.strip() if link_div else ''

print(f"Extracted Link: {link}")

sheet[f'D{row}'] = link

# 定位第1个class="flex-vertical gap-4"的div标签

team_div = item.find('div', class_='flex-vertical gap-4')

if team_div:

team_members = [p.text.strip() for p in team_div.find_all('p') if p.text.strip() not in ['TEAM', '']]

team_str = ', '.join(team_members)

print(f"Extracted Team: {team_str}")

sheet[f'E{row}'] = team_str

# 定位第2个class="flex-vertical gap-4"的div标签

milestones_div = item.find_all('div', class_='flex-vertical gap-4')[1] if len(item.find_all('div', class_='flex-vertical gap-4')) > 1 else None

if milestones_div:

milestones = [p.text.strip() for p in milestones_div.find_all('p') if p.text.strip() not in ['Milestones', '']]

milestones_str = ', '.join(milestones)

print(f"Extracted Milestones: {milestones_str}")

sheet[f'F{row}'] = milestones_str

# 定位第3个class="flex-vertical gap-4"的div标签

articles_div = item.find_all('div', class_='flex-vertical gap-4')[2] if len(item.find_all('div', class_='flex-vertical gap-4')) > 2 else None

if articles_div:

articles = [p.text.strip() for p in articles_div.find_all('p') if p.text.strip() not in ['Articles', '']]

articles_str = ', '.join(articles)

print(f"Extracted Articles: {articles_str}")

sheet[f'G{row}'] = articles_str

row += 1

except Exception as e:

print(f"Error processing item: {e}")

# 保存Excel文件

workbook.save('F:/Amplifypartnersportfolio.xlsx')

print("Data saved to Amplifypartnersportfolio.xlsx")

创建Excel工作簿: 使用 openpyxl 创建一个新的Excel工作簿，并设置表头。

获取网页内容: 使用 requests 库获取网页内容，并使用 BeautifulSoup 解析HTML。

定位和提取数据: 使用 BeautifulSoup 的 find 和 find_all 方法定位和提取所需的数据。

写入Excel: 将提取的数据写入Excel表格的相应列。

保存Excel文件: 将工作簿保存到指定路径。

运行此脚本后，你将在F盘根目录下找到 Amplifypartnersportfolio.xlsx 文件，其中包含提取的数据。

爬取成功：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-09-18

用字节Seedream4.0直出4K中文海报的22种懒人方法，我找全了！

2025-09-18

我们又更新了：ima支持上传音频文件

2025-09-17

处理Word文档？AI编程比你想象的更强大！

2025-09-17

豆包 Seedream 4.0：图像创作革新者与精简使用攻略

2025-09-15

公开帮我每天赚钱的 AI 工作流之产品分析

2025-09-14

同样用AI，为什么有人写出好内容，有人只能得平庸回答？3个维度提升深度思考，让AI成为你的思维放大器

2025-09-12

AI时代组织变革的六大动力

2025-09-12

Rokid Glasses应用心愿单-无痛背词

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

AI做解压赛道，太火了！

2025-07-28

一个用 AI 起号的新思路

2025-08-06

如何让你的网站内容更好被AI收录和推荐？（技术篇）

2025-06-23

185个真实AI应用场景案例，涵盖六大版块，全球170多个公司和组织

2025-09-02

AI走进中小学课堂案例研究：四个项目，四种探索

2025-09-04

靠Coze躺赢！输入水果名生成10w+AI切水果爆款视频！新号0粉小红书连爆2条快学！

2025-06-30

一键解锁创意魔法！用 Dify + 豆包大模型搭建文生图 / 文生视频 Agent

2025-07-08

AI批量抠图！5秒抠30张图，毛发/玻璃/多人物场景一键分离

2025-09-05

EasyDoc：将你的文档变为 AI 友好格式的万能神器

2025-06-26

公开帮我每天赚钱的 AI 工作流之产品分析

2025-09-15

大家都在问

一周的数据分析现在几秒完成，一位医生如何用AI给工作减负？

2025-09-11

企业、垂类应用都在用 AI 搜索做什么？

2025-09-09

AI 时代，为什么文档处理依然这么难？

2025-09-06

学AI-笔记025：如何利用AI读书助力高效知识吸收？

2025-08-28

我为什么不建议用AI读文献？

2025-08-24

AI 浪潮下，“掉队”=“淘汰”，普通人能否成为AI小专家？

2025-08-20

AI 项目的 “真与假”：为什么聊了很多，却没优质项目？

2025-08-20

用AI写论文发现不像是人写的，自己写文发现又不够深度，咋整？

2025-08-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB