超强大的PDF数据提取库PyMuPDF4LLM

发布日期：2024-10-29 22:28:28 浏览次数： 2720

作者：Py-Ai-Hu

微信搜一搜，关注“Py-Ai-Hu”

PyMuPDF4LLM,顾名思义，它是一个为pymupdf添加了LLM的输出功能的库。

PyMuPDF4LLM的特点：

多功能 Markdown 提取

PyMuPDF4LLM支持广泛的任务，从基本的文本提取到适合微调LLM的 Markdown格式的数据采集。

灵活运用

除了文本提取之外，该工具还可以逐页检索数据，将其保存为RAG任务所需的格式，甚至将数据直接传递给 LlamaIndex 等框架。

丰富的提取功能

除了文本之外，还可以满足图像提取、分词、表格提取等细节需求。这些功能在多种情况下都很有用，包括知识库创建和情感分析。

安装方法

首先，让我们安装 PyMuPDF4LLM。

pip install pymupdf4llm

用例 1：基本 Markdown 提取

让我们获取 Markdown 格式的 PDF 内容。

import pymupdf4llmmd_text = pymupdf4llm.to_markdown("document.pdf")

以 Markdown 格式获取可以保留标题和列表等结构，使其成为 LLM 训练数据的理想选择。

用例 2：仅提取特定页面

仅提取您需要的页面也很容易。

import pymupdf4llm# 只抽取指定的第8页，第9页md_text = pymupdf4llm.to_markdown("document.pdf", pages=[8, 9])

它非常高效，因为您可以从大型PDF中仅提取所需的部分。

用例 3：将 Markdown 保存到文件

让我们将提取的 Markdown 保存到文件中。

import pymupdf4llmimport pathlibmd_text = pymupdf4llm.to_markdown("document.pdf")pathlib.Path("output.md").write_bytes(md_text.encode())

用例 4：提取为 LlamaIndex 的文档

您还可以以与 LlamaIndex兼容的格式检索数据。

import pymupdf4llmllama_reader = pymupdf4llm.LlamaMarkdownReader()llama_docs = llama_reader.load_data("document.pdf")

用例 5：提取图像

提取图像也很容易。

md_text_images = pymupdf4llm.to_markdown(doc="document.pdf",pages=[1, 11],page_chunks=True,write_images=True,image_path="images",image_format="png",dpi=300)

用例 6：对数据进行分块并使用元数据进行提取

还可以对数据进行分块并使用元数据检索它。

md_text_chunks = pymupdf4llm.to_markdown(doc="document.pdf",pages=[0, 1, 2],page_chunks=True)

用例 7：详细的逐字提取

它还支持您想要以字为单位获取数据的情况。

md_text_words = pymupdf4llm.to_markdown(doc="document.pdf",pages=[1, 2],page_chunks=True,write_images=True,image_path="images",image_format="png",dpi=300,extract_words=True)print(md_text_words[0]['words'][:5])

用法示例8：整齐地提取表格

import pymupdf4llmmd_text_tables = pymupdf4llm.to_markdown(doc="document.pdf",pages=[12]# 存在表格的页面)print(md_text_tables)

如果您正在构建RAG系统、微调您的LLM，或者只是在寻找出色的 PDF提取工具，可以尝试一下PyMuPDF4LLM。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw