我要投稿

知识库优化之路（一）：把PDF文件转成Markdown格式

发布日期：2025-03-20 04:51:46 浏览次数： 2744 作者：AI的回响

知识库优化之路（一）

最近两篇关于本地知识库的讨论，得到了很多朋友的关注。看来使用本地知识库的人确实很多，这也算是个刚需了。

而大家关注的焦点也基本一致的，那就是：如何改善本地知识库的使用效果？

这个问题说起来，其实是个非常复杂的事情。如果专业人士来做，这里面有很多优化的空间，不过也需要很多的算力资源、人力和时间成本。对于普通用户来说，这是个很高的门槛。

所以，今天开始的《知识库优化之路》系列，主要是面向普通小白用户，在资源条件、技术条件有限的情况下，如何仅仅从用户侧，做一些基本的知识库优化工作，希望能给大家带来一些帮助。

首先开始第一步：把PDF文件转成Markdown格式。

1 什么是Markdown？

你可能没听说过Markdown，但你一定见过它的样子。

特别是当你用DeepSeek生成了一段内容，再把它复制以后粘贴到别的地方，忽然发现里面多了一些讨厌的#和*这些符号。

这些看似简单的符号，能够让用户在不使用专业编辑工具（Word, WPS等）的情况下，可以很方便地让普通文本具有样式和层次结构，突出重点内容。

这样说可能有点抽象，还是看图举例说明一下，譬如你现在看到的文字。

左边是Markdown格式的文本，右边是预览效果。

至于如何使用Markdown，不是这里讨论的重点，暂时略过，感兴趣的朋友可以自行了解。

如果你经常使用AI工具，建议一定要掌握Markdown的用法（非常简单，三分钟就能学会）。在和大模型对话的过程中，使用Markdown标记，也能让AI更好地理解你想表达的内容。

为什么要把PDF格式的文件转成Markdown？

因为AI喜欢Markdown，就连大模型输出内容默认都使用Markdown格式。

当然，这是开玩笑的说法。真正的原因是：Markdown格式的文本，对AI很友好，有助于它们更好地理解文章的内容和结构。

普通格式的文本在它们眼里，标题和正文没有区别，都是差不多的文字。而Markdown格式的文本，可以让它们明白，哪里是一级标题，哪里是二级标题，哪里是正文，哪些是重点强调的，哪个主题下面又包含了三部分。

所以，简单点说，Markdown格式能让AI更好地理解你的资料。

当然了，并不是所有的文件都适合转成Markdown，主要是以文字内容为主的资料才适合。特别是有一些扫描版的pdf，里面全是带文字的图片，对于大模型极其不友好，转成Markdown就会好很多。

可以将PDF转换成Markdown的工具有很多，不同的工具，转换效果可能也有差别。目前有一款开源的软件广受欢迎，用过的都说好，它就是MinerU。

MinerU是一款大模型时代的文档提取/转换神器，支持PDF、Word、PPT等多种文档的智能解析，可以用于机器学习、大模型语料生产、RAG（知识库）等场景。

它不但支持多种语言，还能对页面上的多种元素（文本、公式、表格、公式、化学方程式、图表等）进行精确解析。借助大模型的能力，实现对PDF内容的准确提取转换。

毫不客气地说，这就是为你我量身打造的神器。关键是，还免费！

我向大家推荐MinerU的很大一个原因，就是它对小白用户比较友好，不像有一些开源项目，还需要懂一些编程开发才能使用。

MinerU的使用方式有三种：

1. 网页版：注册登录后即可免费使用；
2. 客户端：下载安装后，不用注册，开箱即用，支持Windows、MacOS、Linnux；
3. API调用：如果你有大量PDF需要处理，可以在线提交申请，免费试用官方的API服务。每个账号每天享有 2000 页最高优先级解析额度，超过 2000 页的部分优先级降低。非常良心！

官方网站：https://mineru.net/