我要投稿

PDF解析器对比

发布日期：2024-08-31 12:17:11 浏览次数： 2145 作者：深度学习机器

一汇总

名称	OCR	提取表格内容	保留文本顺序	提取图片	保存成md格式	其他特性
pymupdf	❌	✔️	✔️	✔️	❌	● 表格提取 ● 自定义字体
pdfminer	❌	❌	✔️	❌	❌	● 版面分析
pdfplumber	❌	✔️	❌	❌	❌	● 表格提取，但存在丢失列的问题
pypdf2	❌	❌	✔️	❌	❌	● pdf合并与拆分 ● 添加水印
llama-parse	✔️	✔️	✔️	✔️	✔️	● 付费API每天有免费额度
open-parse	✔️	✔️	✔️	❌	✔️	● 文本支持保存markdown和html格式 ●内置表格模型，可自由选择 ●表格带markdown格式
deepdoc	✔️	✔️	✔️	✔️	❌	● 支持版面分析 ●表格带html格式
MinerU	✔️	✔️	✔️	✔️	✔️	● 文本带markdown格式 ● 解析保留中间过程，可用于二次调优 ● 表格提取非常慢，目前效果一般

二总结

• 非扫描件无OCR要求直接使用pymupdf(fitz)即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。
• 其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。
• llama-parse 中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。
• deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU优势在于识别的文本带有markdown格式，因此用于RAG切分文档中可以省去不少功夫。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-03

6种AI声音克隆工具，听说还有99%的人不知道（建议收藏）

2025-04-03

AI内容检测的四种方法：AI水印的局限和出路

2025-04-03

使用Go开发MCP Server, 太简单了!

2025-04-02

核对2个表格，Deepseek才是YYDS，看我30秒搞定！

2025-04-01

扫描书籍PDF文件转Markdown/EPUB工具pdf-craft

2025-04-01

DeepSeek写材料：5秒生成满意的标题

2025-03-31

网页数据抓取神器！Fetch MCP Server：一款超级好用的网页数据抓取轻量级利器！

2025-03-31

Cursor + Figma：UI 设计稿一键转代码的高效工作流

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Manus横空出世，如何获取邀请码

2025-03-06

Kimi、豆包与ChatGPT的对比分析

2024-09-04

从探索到落地：全面解析2024年AI在各行业的突破与应用

2025-01-25

国内用户如何使用ChatGPT高级实时语音功能教程

2024-09-26

豆包AI全攻略：八大功能详解与实操指南

2024-10-30

看完这篇，终于知道怎么选AI做PPT的工具了！

2024-09-03

让大模型写小说太难？试试雪花十步写作法，轻松突破瓶颈！

2024-12-11

新手必看：Cursor软件编写微信小程序全攻略

2024-12-25

对话Kyth：小宇宙CEO如何理解AI播客？

2024-10-30

实测小红书AI声聊，一种适合年轻人体质的发疯社交？

2024-09-06

大家都在问

AI会改变知乎和小红书吗？

2025-03-25

一夜爆火的通用 Agent，Manus 效果到底如何？

2025-03-24

论文AI率怎么查出来的？查出来后需要降吗？如何降？

2025-03-19

完整复盘：Manus 是怎么诞生的？

2025-03-15

内卷时代，AI是解药还是毒药？

2025-03-13

Manus 的狂热和争议之后，我和 AI 开发者们聊了聊：这是智能体的胜利吗？

2025-03-12

AI时代，我们如何修自己的内心？

2025-03-12

AI时代人机交互，如何构建高效且富有创造力的人机协同体系？

2025-03-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204 陈先生 185 8882 0121

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部