微信扫码
添加专属顾问
我要投稿
将PDF文件转换为Markdown格式,让知识库更高效、更智能。 核心内容: 1. 知识库优化的重要性及其对普通用户的意义 2. Markdown格式的优势及其对AI友好性 3. 推荐工具MinerU及其在PDF转Markdown中的应用
知识库优化之路(一)
最近两篇关于本地知识库的讨论,得到了很多朋友的关注。看来使用本地知识库的人确实很多,这也算是个刚需了。
而大家关注的焦点也基本一致的,那就是:如何改善本地知识库的使用效果?
这个问题说起来,其实是个非常复杂的事情。如果专业人士来做,这里面有很多优化的空间,不过也需要很多的算力资源、人力和时间成本。对于普通用户来说,这是个很高的门槛。
所以,今天开始的《知识库优化之路》系列,主要是面向普通小白用户,在资源条件、技术条件有限的情况下,如何仅仅从用户侧,做一些基本的知识库优化工作,希望能给大家带来一些帮助。
首先开始第一步:把PDF文件转成Markdown格式。
你可能没听说过Markdown,但你一定见过它的样子。
特别是当你用DeepSeek生成了一段内容,再把它复制以后粘贴到别的地方,忽然发现里面多了一些讨厌的#和*这些符号。
这些看似简单的符号,能够让用户在不使用专业编辑工具(Word, WPS等)的情况下,可以很方便地让普通文本具有样式和层次结构,突出重点内容。
这样说可能有点抽象,还是看图举例说明一下,譬如你现在看到的文字。
左边是Markdown格式的文本,右边是预览效果。
至于如何使用Markdown,不是这里讨论的重点,暂时略过,感兴趣的朋友可以自行了解。
如果你经常使用AI工具,建议一定要掌握Markdown的用法(非常简单,三分钟就能学会)。在和大模型对话的过程中,使用Markdown标记,也能让AI更好地理解你想表达的内容。
为什么要把PDF格式的文件转成Markdown?
因为AI喜欢Markdown,就连大模型输出内容默认都使用Markdown格式。
当然,这是开玩笑的说法。真正的原因是:Markdown格式的文本,对AI很友好,有助于它们更好地理解文章的内容和结构。
普通格式的文本在它们眼里,标题和正文没有区别,都是差不多的文字。而Markdown格式的文本,可以让它们明白,哪里是一级标题,哪里是二级标题,哪里是正文,哪些是重点强调的,哪个主题下面又包含了三部分。
所以,简单点说,Markdown格式能让AI更好地理解你的资料。
当然了,并不是所有的文件都适合转成Markdown,主要是以文字内容为主的资料才适合。特别是有一些扫描版的pdf,里面全是带文字的图片,对于大模型极其不友好,转成Markdown就会好很多。
可以将PDF转换成Markdown的工具有很多,不同的工具,转换效果可能也有差别。目前有一款开源的软件广受欢迎,用过的都说好,它就是MinerU。
MinerU是一款大模型时代的文档提取/转换神器,支持PDF、Word、PPT等多种文档的智能解析,可以用于机器学习、大模型语料生产、RAG(知识库)等场景。
它不但支持多种语言,还能对页面上的多种元素(文本、公式、表格、公式、化学方程式、图表等)进行精确解析。借助大模型的能力,实现对PDF内容的准确提取转换。
毫不客气地说,这就是为你我量身打造的神器。关键是,还免费!
我向大家推荐MinerU的很大一个原因,就是它对小白用户比较友好,不像有一些开源项目,还需要懂一些编程开发才能使用。
MinerU的使用方式有三种:
官方网站:https://mineru.net/
PDF转Markdown的开源项目其实比较多,感兴趣的朋友可以自己到Github找来试试看,这里就不一一介绍了。
为了测试MinerU的转换效果,我用之前下载的《北京大学DeepSeek系列-DeepSeek与AIGC应用》测试了一下。
可以看到ppt里面一个介绍大模型关键发展期的图表,被它完美地解析提取了出来
但是在下一页的表格内容,其中一个单元格内容仅识别出来一个字,其他的都丢失了。
上面这个既有文字,又有图片(图片中有文字)的页面,居然被完全还原了,包括图片上的文字和表格!
这样看下来,MinerU在把PDF转换为Markdown的过程中,虽然偶有缺失,但识别能力和还原能力还是挺强的。
直接打开转换过的Markdown文件,发现里面确实通过Markdown标记,对内容层级进行了区分。
不过,我在有些地方发现了html标签。
我本以为这是个什么bug,仔细一看原来是对表格进行的特殊处理,确保大模型能更好地理解表格的内容结构。
为了测试搜索效果,我用CherryStudio新建了一个知识库,把同一个文件的PDF格式和Markdown格式文件都添加进来,然后搜索几个不同的内容。
不知道是不是内容太少的原因,通过我的搜索结果来看,并不能贸然得出Markdown格式的效果好过PDF的结论。虽然理论上应该是这样,但我也需要更多的实际体验来支持。欢迎大家在评论区分享自己的实际体验,给我和其他人一些参考。
最后分享一个开源的微信Markdown编辑工具。
项目地址:https://github.com/doocs/md
它可以让 Markdown 文档自动即时渲染为微信图文,让你不再为微信内容排版而发愁!只要你会基本的 Markdown 语法,就能做出一篇样式简洁而又美观大方的微信图文。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-18
错过这篇"技术支持AI知识库搭建",你可能后悔整个 2025 年!
2025-04-17
AI助力法律实务:使用AI制作答辩状的全流程
2025-04-17
腾讯IMA知识库高阶玩法之六,99%的人不知道:AI时代书还能这么读?
2025-04-17
腾讯文档 “AI搜索” PK 腾讯IMA!2个不同的AI产品框架,哪个产品经理更厉害?
2025-04-16
AI的思考模式又升级了!让它乖乖帮我们工作去吧!
2025-04-15
知识库优化之路(四):重排序模型的加入,让检索结果更加精准
2025-04-15
AI时代,企业还有没有必要做数据治理?——数据基建决定智能天花板
2025-04-15
腾讯IMA最新版:个人知识库文件夹功能革新,开启知识管理新范式
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-04-17
2025-04-17
2025-04-13
2025-04-12
2025-04-11
2025-04-06
2025-03-22
2025-03-17