AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


PDF解析器对比
发布日期:2024-08-31 12:17:11 浏览次数: 1606


一 汇总

名称OCR提取表格内容保留文本顺序提取图片保存成md格式其他特性
pymupdf✔️✔️✔️● 表格提取
● 自定义字体
pdfminer✔️● 版面分析
pdfplumber✔️● 表格提取,但存在丢失列的问题
pypdf2✔️● pdf合并与拆分
● 添加水印
llama-parse✔️✔️✔️✔️✔️● 付费API每天有免费额度
open-parse✔️✔️✔️✔️● 文本支持保存markdown和html格式
●内置表格模型,可自由选择
●表格带markdown格式
deepdoc✔️✔️✔️✔️● 支持版面分析
●表格带html格式
MinerU✔️✔️✔️✔️✔️● 文本带markdown格式
● 解析保留中间过程,可用于二次调优
● 表格提取非常慢,目前效果一般

二 总结

  • • 非扫描件无OCR要求直接使用pymupdf(fitz)即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List的格式保留。

  • • 其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。

  • • llama-parse 中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。

  • • deepdocMinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU优势在于识别的文本带有markdown格式,因此用于RAG切分文档中可以省去不少功夫。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询