支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


知识库优化之路(一):把PDF文件转成Markdown格式

发布日期:2025-03-20 04:51:46 浏览次数: 1772 来源:AI的回响
推荐语

将PDF文件转换为Markdown格式,让知识库更高效、更智能。

核心内容:
1. 知识库优化的重要性及其对普通用户的意义
2. Markdown格式的优势及其对AI友好性
3. 推荐工具MinerU及其在PDF转Markdown中的应用

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

知识库优化之路(一)

最近两篇关于本地知识库的讨论,得到了很多朋友的关注。看来使用本地知识库的人确实很多,这也算是个刚需了。

而大家关注的焦点也基本一致的,那就是:如何改善本地知识库的使用效果?

这个问题说起来,其实是个非常复杂的事情。如果专业人士来做,这里面有很多优化的空间,不过也需要很多的算力资源、人力和时间成本。对于普通用户来说,这是个很高的门槛。

所以,今天开始的《知识库优化之路》系列,主要是面向普通小白用户,在资源条件、技术条件有限的情况下,如何仅仅从用户侧,做一些基本的知识库优化工作,希望能给大家带来一些帮助。

首先开始第一步:把PDF文件转成Markdown格式

1 什么是Markdown?

你可能没听说过Markdown,但你一定见过它的样子。

特别是当你用DeepSeek生成了一段内容,再把它复制以后粘贴到别的地方,忽然发现里面多了一些讨厌的#和*这些符号。

这些看似简单的符号,能够让用户在不使用专业编辑工具(Word, WPS等)的情况下,可以很方便地让普通文本具有样式和层次结构,突出重点内容。

这样说可能有点抽象,还是看图举例说明一下,譬如你现在看到的文字。

左边是Markdown格式的文本,右边是预览效果。

至于如何使用Markdown,不是这里讨论的重点,暂时略过,感兴趣的朋友可以自行了解。

如果你经常使用AI工具,建议一定要掌握Markdown的用法(非常简单,三分钟就能学会)。在和大模型对话的过程中,使用Markdown标记,也能让AI更好地理解你想表达的内容。

2 为什么要转成Markdown?

为什么要把PDF格式的文件转成Markdown?

因为AI喜欢Markdown,就连大模型输出内容默认都使用Markdown格式。

当然,这是开玩笑的说法。真正的原因是:Markdown格式的文本,对AI很友好,有助于它们更好地理解文章的内容和结构。

普通格式的文本在它们眼里,标题和正文没有区别,都是差不多的文字。而Markdown格式的文本,可以让它们明白,哪里是一级标题,哪里是二级标题,哪里是正文,哪些是重点强调的,哪个主题下面又包含了三部分。

所以,简单点说,Markdown格式能让AI更好地理解你的资料

当然了,并不是所有的文件都适合转成Markdown,主要是以文字内容为主的资料才适合。特别是有一些扫描版的pdf,里面全是带文字的图片,对于大模型极其不友好,转成Markdown就会好很多。

3 用什么工具转Markdown?

可以将PDF转换成Markdown的工具有很多,不同的工具,转换效果可能也有差别。目前有一款开源的软件广受欢迎,用过的都说好,它就是MinerU

3.1 MinerU 介绍

MinerU是一款大模型时代的文档提取/转换神器,支持PDF、Word、PPT等多种文档的智能解析,可以用于机器学习、大模型语料生产、RAG(知识库)等场景。

它不但支持多种语言,还能对页面上的多种元素(文本、公式、表格、公式、化学方程式、图表等)进行精确解析。借助大模型的能力,实现对PDF内容的准确提取转换。

毫不客气地说,这就是为你我量身打造的神器。关键是,还免费!

3.2 使用方法

我向大家推荐MinerU的很大一个原因,就是它对小白用户比较友好,不像有一些开源项目,还需要懂一些编程开发才能使用。

MinerU的使用方式有三种:

  1. 1. 网页版:注册登录后即可免费使用;
  2. 2. 客户端:下载安装后,不用注册,开箱即用,支持Windows、MacOS、Linnux;
  3. 3. API调用:如果你有大量PDF需要处理,可以在线提交申请,免费试用官方的API服务。每个账号每天享有 2000 页最高优先级解析额度,超过 2000 页的部分优先级降低。非常良心!

官方网站:https://mineru.net/

3.3 其他开源项目

PDF转Markdown的开源项目其实比较多,感兴趣的朋友可以自己到Github找来试试看,这里就不一一介绍了。

  1. 1. document-convert
  2. 2. Ragflow
  3. 3. gptpdf 
  4. 4. marker
    5. PDF-Extract-Kit
  5. 6. zerox
  6. 7. OminiParse

4 MinerU转换效果如何?

4.1 对比检查

为了测试MinerU的转换效果,我用之前下载的《北京大学DeepSeek系列-DeepSeek与AIGC应用》测试了一下。

可以看到ppt里面一个介绍大模型关键发展期的图表,被它完美地解析提取了出来

但是在下一页的表格内容,其中一个单元格内容仅识别出来一个字,其他的都丢失了。

上面这个既有文字,又有图片(图片中有文字)的页面,居然被完全还原了,包括图片上的文字和表格!

这样看下来,MinerU在把PDF转换为Markdown的过程中,虽然偶有缺失,但识别能力和还原能力还是挺强的。

4.2 查看Markdown文件

直接打开转换过的Markdown文件,发现里面确实通过Markdown标记,对内容层级进行了区分。

不过,我在有些地方发现了html标签。


我本以为这是个什么bug,仔细一看原来是对表格进行的特殊处理,确保大模型能更好地理解表格的内容结构。

知识库搜索对比

为了测试搜索效果,我用CherryStudio新建了一个知识库,把同一个文件的PDF格式和Markdown格式文件都添加进来,然后搜索几个不同的内容。

不知道是不是内容太少的原因,通过我的搜索结果来看,并不能贸然得出Markdown格式的效果好过PDF的结论。虽然理论上应该是这样,但我也需要更多的实际体验来支持。欢迎大家在评论区分享自己的实际体验,给我和其他人一些参考。

5 微信Markdown编辑工具

最后分享一个开源的微信Markdown编辑工具。

项目地址:https://github.com/doocs/md

它可以让 Markdown 文档自动即时渲染为微信图文,让你不再为微信内容排版而发愁!只要你会基本的 Markdown 语法,就能做出一篇样式简洁而又美观大方的微信图文。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询