微信扫码
与创始人交个朋友
我要投稿
名称 | OCR | 提取表格内容 | 保留文本顺序 | 提取图片 | 保存成md格式 | 其他特性 |
pymupdf | ❌ | ✔️ | ✔️ | ✔️ | ❌ | ● 表格提取 ● 自定义字体 |
pdfminer | ❌ | ❌ | ✔️ | ❌ | ❌ | ● 版面分析 |
pdfplumber | ❌ | ✔️ | ❌ | ❌ | ❌ | ● 表格提取,但存在丢失列的问题 |
pypdf2 | ❌ | ❌ | ✔️ | ❌ | ❌ | ● pdf合并与拆分 ● 添加水印 |
llama-parse | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 付费API每天有免费额度 |
open-parse | ✔️ | ✔️ | ✔️ | ❌ | ✔️ | ● 文本支持保存markdown和html格式 ●内置表格模型,可自由选择 ●表格带markdown格式 |
deepdoc | ✔️ | ✔️ | ✔️ | ✔️ | ❌ | ● 支持版面分析 ●表格带html格式 |
MinerU | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 文本带markdown格式 ● 解析保留中间过程,可用于二次调优 ● 表格提取非常慢,目前效果一般 |
• 非扫描件无OCR要求直接使用pymupdf(fitz)
即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List
的格式保留。
• 其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。
• llama-parse
中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。
• deepdoc
和MinerU
是近期开源项目中比较强大的RAG解析工具。deepdoc
优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU
优势在于识别的文本带有markdown格式,因此用于RAG切分文档中可以省去不少功夫。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-18
保姆级教程:如何注册目前一系列最顶级AI工具【ChatGPT,Claude,runway,luma】
2024-09-16
与GPT-4o探讨认知升级,及客观世界和主观世界
2024-09-15
AI写作:如何写好观点文(包含提示词Prompt)
2024-09-14
这届的AI故事,还能讲多久?
2024-09-13
语雀AI功能正式上线,助力文档阅读、创作,随时待命
2024-09-13
Github推荐:Reactive Resume - 一款独特的简历生成器,着眼于隐私保护
2024-09-13
Google 的这款 AI 笔记应用,太酷了
2024-09-12
使用 ChatGPT 从头开始辅助写论文
2024-07-15
2024-07-21
2024-07-03
2024-07-29
2024-07-15
2024-06-14
2024-06-24
2024-05-05
2024-07-26
2024-07-23