微信扫码
添加专属顾问
我要投稿
将PDF文件转换为Markdown格式,让知识库更高效、更智能。 核心内容: 1. 知识库优化的重要性及其对普通用户的意义 2. Markdown格式的优势及其对AI友好性 3. 推荐工具MinerU及其在PDF转Markdown中的应用
知识库优化之路(一)
最近两篇关于本地知识库的讨论,得到了很多朋友的关注。看来使用本地知识库的人确实很多,这也算是个刚需了。
而大家关注的焦点也基本一致的,那就是:如何改善本地知识库的使用效果?
这个问题说起来,其实是个非常复杂的事情。如果专业人士来做,这里面有很多优化的空间,不过也需要很多的算力资源、人力和时间成本。对于普通用户来说,这是个很高的门槛。
所以,今天开始的《知识库优化之路》系列,主要是面向普通小白用户,在资源条件、技术条件有限的情况下,如何仅仅从用户侧,做一些基本的知识库优化工作,希望能给大家带来一些帮助。
首先开始第一步:把PDF文件转成Markdown格式。
你可能没听说过Markdown,但你一定见过它的样子。
特别是当你用DeepSeek生成了一段内容,再把它复制以后粘贴到别的地方,忽然发现里面多了一些讨厌的#和*这些符号。
这些看似简单的符号,能够让用户在不使用专业编辑工具(Word, WPS等)的情况下,可以很方便地让普通文本具有样式和层次结构,突出重点内容。
这样说可能有点抽象,还是看图举例说明一下,譬如你现在看到的文字。
左边是Markdown格式的文本,右边是预览效果。
至于如何使用Markdown,不是这里讨论的重点,暂时略过,感兴趣的朋友可以自行了解。
如果你经常使用AI工具,建议一定要掌握Markdown的用法(非常简单,三分钟就能学会)。在和大模型对话的过程中,使用Markdown标记,也能让AI更好地理解你想表达的内容。
为什么要把PDF格式的文件转成Markdown?
因为AI喜欢Markdown,就连大模型输出内容默认都使用Markdown格式。
当然,这是开玩笑的说法。真正的原因是:Markdown格式的文本,对AI很友好,有助于它们更好地理解文章的内容和结构。
普通格式的文本在它们眼里,标题和正文没有区别,都是差不多的文字。而Markdown格式的文本,可以让它们明白,哪里是一级标题,哪里是二级标题,哪里是正文,哪些是重点强调的,哪个主题下面又包含了三部分。
所以,简单点说,Markdown格式能让AI更好地理解你的资料。
当然了,并不是所有的文件都适合转成Markdown,主要是以文字内容为主的资料才适合。特别是有一些扫描版的pdf,里面全是带文字的图片,对于大模型极其不友好,转成Markdown就会好很多。
可以将PDF转换成Markdown的工具有很多,不同的工具,转换效果可能也有差别。目前有一款开源的软件广受欢迎,用过的都说好,它就是MinerU。
MinerU是一款大模型时代的文档提取/转换神器,支持PDF、Word、PPT等多种文档的智能解析,可以用于机器学习、大模型语料生产、RAG(知识库)等场景。
它不但支持多种语言,还能对页面上的多种元素(文本、公式、表格、公式、化学方程式、图表等)进行精确解析。借助大模型的能力,实现对PDF内容的准确提取转换。
毫不客气地说,这就是为你我量身打造的神器。关键是,还免费!
我向大家推荐MinerU的很大一个原因,就是它对小白用户比较友好,不像有一些开源项目,还需要懂一些编程开发才能使用。
MinerU的使用方式有三种:
官方网站:https://mineru.net/
PDF转Markdown的开源项目其实比较多,感兴趣的朋友可以自己到Github找来试试看,这里就不一一介绍了。
为了测试MinerU的转换效果,我用之前下载的《北京大学DeepSeek系列-DeepSeek与AIGC应用》测试了一下。
可以看到ppt里面一个介绍大模型关键发展期的图表,被它完美地解析提取了出来
但是在下一页的表格内容,其中一个单元格内容仅识别出来一个字,其他的都丢失了。
上面这个既有文字,又有图片(图片中有文字)的页面,居然被完全还原了,包括图片上的文字和表格!
这样看下来,MinerU在把PDF转换为Markdown的过程中,虽然偶有缺失,但识别能力和还原能力还是挺强的。
直接打开转换过的Markdown文件,发现里面确实通过Markdown标记,对内容层级进行了区分。
不过,我在有些地方发现了html标签。
我本以为这是个什么bug,仔细一看原来是对表格进行的特殊处理,确保大模型能更好地理解表格的内容结构。
为了测试搜索效果,我用CherryStudio新建了一个知识库,把同一个文件的PDF格式和Markdown格式文件都添加进来,然后搜索几个不同的内容。
不知道是不是内容太少的原因,通过我的搜索结果来看,并不能贸然得出Markdown格式的效果好过PDF的结论。虽然理论上应该是这样,但我也需要更多的实际体验来支持。欢迎大家在评论区分享自己的实际体验,给我和其他人一些参考。
最后分享一个开源的微信Markdown编辑工具。
项目地址:https://github.com/doocs/md
它可以让 Markdown 文档自动即时渲染为微信图文,让你不再为微信内容排版而发愁!只要你会基本的 Markdown 语法,就能做出一篇样式简洁而又美观大方的微信图文。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-29
用腾讯 ima 给你配一个知识大脑,保姆级教程
2025-03-29
如何让DeepSeek生成让人满意的回答?试试专业知识库
2025-03-29
腾讯IMA推出「知识号」:个人知识经济的第三极
2025-03-28
Dify + Notion 让你的个人知识库活起来
2025-03-28
【AI落地应用实战】DeepSeek + RagFlow + 本地私有知识库 构建本地知识库系统实战指南
2025-03-28
解锁数据新动能:从统一数据治理迈向企业级Data Agent
2025-03-26
揭秘:用大模型打造的企业合同智能审核系统,法务部门效率提升300%!
2025-03-25
Deepseek与法律专业大模型深度拆解——基于诉讼文书生成应用场景
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-03-22
2025-03-17
2025-03-11
2025-03-09
2025-03-05
2025-03-01
2025-02-20
2025-02-17