微信扫码
添加专属顾问
我要投稿
解析PDF和Word文档,提升知识库管理效率。 核心内容: 1. Dify和Cherry无法解析影印PDF/Word的问题 2. marker和markitdown工具的解析能力与优势 3. 所需硬件资源与推荐配置
近期收到大量读者反馈:上传pdf/图文PDF到dify、Cherry Studio等知识库时,普遍存在格式错乱、图片丢失、表格失效三大痛点。
在试用的几款知识库中除了ragflow
具备图片解析的能力外,其他的都只能解析文本。如果想要解析扫描件,或者带图片的pdf或word,怎么办?
通过工具将文档转成markdown
私密性的文件,建议本地部署,本地模型,非私密性的文件,可以使用一些在线服务。
https://github.com/VikParuchuri/marker
在github上21.6k星
--use_llm
调用 Gemini/Ollama 等模型提升准确率,支持自定义处理规则。--use_llm
需联网调用云服务(Gemini/Claude/Ollama)。https://github.com/microsoft/markitdown
在github上39.4k星
将多种文件类型(PDF、Office文档、图像、音频、HTML、ZIP、YouTube等)转换为Markdown格式,支持文本分析、索引生成等场景,并提供插件扩展能力。
#markitdown-plugin
),适配定制需求。https://github.com/opendatalab/MinerU
在github上27.1k星
官方硬件推荐
Docling 是文档处理工具,支持多格式解析(PDF、DOCX、HTML、图片等),重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能,提供统一文档结构表达,并与 LangChain、LlamaIndex 等 AI 框架集成,助力生成式 AI 应用开发。
然后我deepseek综合对比了下这款产品,各有优缺点,联网竟然没有查到Docling
Marker | - 表格转Markdown格式 - 开源(GitHub Star 14.5k) | - 目录误判为表格 - 复杂表格解析混乱 | ||
MinerU | - 表格定位能力强 - 目录和标题识别优于Marker | - 图片识别偶尔错误 | ||
MarkitDown | - 可结合AI模型生成智能描述 - MIT开源协议,灵活扩展 | - 复杂PDF解析能力有限 | ||
Docling | ||||
1
上传文件,上传文件以后先不要执行2
参数配置3
特别注意:它家的速度贼快,第一次没注意配置,上传一个99页的演示稿,直接点击识别,几秒就用了99页的免费额度。
1
可以设置从哪页开始解析2
4
全文识别1
查看识别出来的表格、公式等是否正确,特别是公式2
可以看到整个的识别还是蛮准确的3
可以复制出结果4
可以导出结果,我们一般用这个5
可以对文档进行编辑,目前的识别准确率还是很不错的。1
位置使用正则^###(?!#)\s
。2
设置把分段长度往长了设置,如果文档不大全文作为整体3
子分段以句号为分隔符Textln
不仅有文档解析,还有很多的其他的服务。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-18
错过这篇"技术支持AI知识库搭建",你可能后悔整个 2025 年!
2025-04-17
AI助力法律实务:使用AI制作答辩状的全流程
2025-04-17
腾讯IMA知识库高阶玩法之六,99%的人不知道:AI时代书还能这么读?
2025-04-17
腾讯文档 “AI搜索” PK 腾讯IMA!2个不同的AI产品框架,哪个产品经理更厉害?
2025-04-16
AI的思考模式又升级了!让它乖乖帮我们工作去吧!
2025-04-15
知识库优化之路(四):重排序模型的加入,让检索结果更加精准
2025-04-15
AI时代,企业还有没有必要做数据治理?——数据基建决定智能天花板
2025-04-15
腾讯IMA最新版:个人知识库文件夹功能革新,开启知识管理新范式
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-04-17
2025-04-17
2025-04-13
2025-04-12
2025-04-11
2025-04-06
2025-03-22
2025-03-17