我要投稿

AI办公自动化：kimi批量搜索提取PDF文档中特定文本内容

发布日期：2024-07-09 19:05:42 浏览次数： 2444 作者：Dance with GenAI

工作任务：PDF文档中有资料来源这一行，比如：

资料来源：moomoo tech、The Information、Bloomberg、Reuters，浙商证券研究所

数据来源：CSDN、浙商证券研究所

数据来源：CSDN、arXiv、浙商证券研究所

数据来源：秘塔AI搜索官网，Similarweb，Epic Connector，东吴证券研究所

来源：Github，《面向深度学习的多模态融合技术研究综述》，《Make-a-video: text-to-video generation without text-video data》，浙商证券研究所

来源：Github，OSCHINA，浙商证券研究所

希望提取文件中几百个PDF文档中的资料来源

在kimi中输入提示词：

你是一个Python编程专家，完成一个脚本编写任务，具体步骤如下：

打开文件夹：F:\研报下载\AIGC研报；

用pdfplumber 库读取文件夹中所有的PDF文件；

遍历PDF文档中的每行文本，查找以“资料来源：”开头、以“数据来源：”开头和以“来源：”开头的这一行文本内容；

保存这些文本内容到文件夹“F:\AI自媒体内容\AI行业数据分析”下的Excel文件中；

注意：

每一步都要输出信息

处理异常和错误：确保你的代码能够处理可能遇到的异常，如文件损坏、权限问题或格式不一致等。

Kimi生成的源代码：

import os

import re

import pdfplumber

from openpyxl import Workbook

# 定义要搜索的关键词

keywords = ["资料来源：", "数据来源：", "来源："]

# 定义源文件夹和目标文件夹路径

source_folder = r'F:\研报下载\AIGC研报'

target_folder = r'F:\AI自媒体内容\AI行业数据分析'

# 确保目标文件夹存在

os.makedirs(target_folder, exist_ok=True)

# 创建Excel工作簿

workbook = Workbook()

sheet = workbook.active

# 遍历源文件夹中的所有文件

for filename in os.listdir(source_folder):

if filename.endswith('.pdf'):

print(f"正在处理文件：{filename}")

# 构建完整的文件路径

file_path = os.path.join(source_folder, filename)

try:

# 使用pdfplumber打开PDF文件

with pdfplumber.open(file_path) as pdf:

# 遍历PDF文档中的每页

for page in pdf.pages:

text = page.extract_text()

# 使用正则表达式搜索关键词

for keyword in keywords:

pattern = re.compile(re.escape(keyword) + ".*")

matches = pattern.findall(text)

for match in matches:

print(f"找到匹配的文本：{match}")

# 将找到的文本写入Excel

sheet.append([match])

except Exception as e:

print(f"处理文件{filename}时发生错误：{e}")

# 保存Excel文件

excel_file_path = os.path.join(target_folder, 'AI_Industry_Analysis.xlsx')

workbook.save(excel_file_path)

print(f"所有数据已保存到：{excel_file_path}")

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-20

AI来了，高绩效员工反而不开心？

2025-04-20

一年半的深度实践，我整理了AI应用的6大方向

2025-04-17

AI越用越聪明？不，是你越来越会用了！

2025-04-17

AI提效的第一步，不是“用AI”，而是“拆问题”

2025-04-17

Manus 是真牛：原来2个小时，现在22分钟

2025-04-16

AI经验总结丨如何用好AI来赋能个人和企业（万字篇）

2025-04-15

别只⽤AI聊天，那不叫拥抱

2025-04-15

腾讯 ima 新版本 1.6 终于支持了文件夹创建

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文：人人都能学会的提示词，揭秘18个prompt模版，8个秘诀，助你AIGC从入门到精通，从可用到好用

2024-04-02

可灵AI的网页版上线了

2024-07-07

办公新利器：DeepSeek+Word，让你的工作更高效

2025-02-02

千万别用可灵AI复活老照片！

2024-06-24

苹果Mac用户的福音：本地运行Meta Llama 3的终极指南

2024-04-27

xinference + dify + ollama 构建本地知识库

2024-05-08

一个叫李星玮的上海交大博士火了！GPT4-o通过数据分析出他100%的渣男属性！

2024-06-06

一种可复用的AI提效方案：AI点灯

2025-01-03

超全总结！大模型算法岗面试真题来了！

2024-04-02

国内20家公司大模型岗位面试经验汇总

2024-05-04

大家都在问

AI来了，高绩效员工反而不开心？

2025-04-20

Cursor 深度评测：革命性提效工具还是过誉的玩具？

2025-04-04

Flowith AI Agent，能否取代 Manus？

2025-03-24

现在的AI ，赋能软件开发，效能到底能提升多少？

2025-03-24

DeepSeek 越强大，我就越容易变蠢？

2025-02-15

AI正在如何重塑未来职业发展路径？

2025-01-13

为什么大多数人不愿意接受AI？

2024-12-26

AI知识泛滥的年代，“脑图+AI”=“埃迪+毒液”：未来工作流的黄金组合，你掌握了吗？

2024-11-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB