我要投稿

提升AI知识库效果，从PDF转Markdown开始

发布日期：2024-07-31 20:20:59 浏览次数： 2334 作者：newtype 超级个体

经常有人抱怨AI知识库精确度不够、答非所问。我有时候想想，会觉得其实AI也挺冤的，因为很有可能不是它能力不行，而是你一开始给的文档就有问题，导致它提取文本有错误、不完整，那后边一连串的检索、生成怎么可能好呢？

比如最常见的PDF格式，我们阅读起来是没啥难度，但大模型要提取文本就遭罪了。

第一，PDF的结构很复杂，有文本、有图像、有表格，还有字体和布局信息。大模型很难理清楚这些结构，自然也就不好从中提取出文本来。

第二，不同PDF可能使用不同的字符编码，这会导致文本解析错误。

第三，即使成功提取出文本，也可能丢失段落、标题这些很重要的信息，造成对内容的理解出现差错。

所以，要提升AI知识库的效果，先把PDF转换成方便大模型提取文本的格式。本期视频我介绍两个工具。一个是Mathpix，现成的产品，我在newtype社群里推荐过。另一个是Marker，更早之前我也在社群内推荐过。正好有小伙伴问具体怎么部署，我一会儿就具体讲讲。

先来看Mathpix。

这款产品桌面端和移动端都有。我用的是网页版。它支持上传PDF和图片。PDF的话，一般是论文；图片的话，一般是手写的笔记或者老师的板书。导入资料后，它会进行识别，然后要么存在软件里作为一条笔记、多端同步，要么导出成Markdown、Word等格式。

作为测试，我这边上传一篇大概8页的论文，它里边包含了PDF最常见的复杂格式。大概几秒钟，Mathpix就处理完成了。然后选择导出Markdown，就能得到一个md格式的文件。

把它放到Obsidian里，可以看到，转换效果挺不错的：原本分成左右两栏的内容，它都给归到一栏里；小标题、分段、表格什么的都在。

我之所以选择Obsidian是因为，它的笔记本来就是md格式，并且Copilot这款AI插件有RAG功能。现在有了PDF转Markdown的工具，以后我对论文的阅读、消化还有记笔记就可以在一个软件里搞定了。

如果你是STEM学生或者科研工作者，肯定会爱死Mathpix——一键OCR就可以输出LaTeX公式太方便了。如果你有大量PDF文档想喂给大模型作为参考资料，也可以考虑订阅，一个月不到5美金。

多说两句，我个人很喜欢Mathpix创始人的思路。他提出一个概念叫Micro-SaaS，意思是，从一个细小且集中的用户痛点切入，提供极度专业化的产品和功能。这种专注利基市场的打法，很适合今天这个AI时代。

OK，Mathpix是最省心的解决方案。当然，如果你不想花这点钱的话，也行，那就本地部署Marker来转换。

Marker是我在GitHub上找到的一个项目，人气挺高的。它同样是把PDF转成Markdown，支持多语种，可以把公式转成LateX，可以把图片也一并提取出来，支持GPU、CPU。

要部署很容易，还是那句话：有手就行。

第一步，老规矩，创建环境然后激活，这个就不用我介绍了。

第二步，安装PyTorch。大家可以去官网根据自己的情况做选择，然后通过特定的命令去下载、安装。如果没安装CUDA，那就先去老黄那边下一个。

第三步，安装Marker。pip install就可以。

这三步完成后，就可以开始使用了。

根据GitHub上的指导，我们需要通过一行命令来运行。这行命令分为四个部分：

第一部分，也就是命令的开头，告诉机器你是要转一个文档还是多个文档。如果是一个的话，就用marker single。

第二部分，告诉机器，需要转换的文档存在哪里，也就是文件地址。

第三部分，告诉机器，转换完之后，该把文档存到哪里。

第四部分是一些参数配置，比如默认batch是2个，需要消耗大约3G的显存。这个数值设得越高，需要的显存越多，转换速度也就越快。

理解这行命令的意思，每次使用就非常简单了。如果你的文件夹一直不变，其实就改一下文件名就好。

作为演示，我还是用刚才那个论文，咱们可以对比一下效果。

运行命令，就能看到每一步的进度条。大家注意看这边：Marker会先做检查，然后找到reading order阅读顺序，最后把md文件存到指定文件夹内。除了正文，论文里的表格都单独提取出来了。

我用VS Code预览一下成品。可以看到，效果还不错。

不过，官方也强调了，他们并不能做到100%成功提取公式、表格，因为PDF这个东西太复杂、太奇怪了，没法打保票。所以转换完成之后，建议大家还是快速看一眼、检查一遍。

如果要转换多个文档也是同样思路，用命令设置存放的位置和输出的位置，可以把整个文件夹里的PDF全都转换了。我这边就不演示了，大家试一次就全明白了。

OK，以上就是今天的内容。其实我很早之前在社群里提过，不管你用什么RAG工具和技术，第一步都得先对原始数据做处理，然后才能输入进去，才能保证最终效果。大家如果想进一步交流的话，来newtype，我都在。那咱们下期见！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-21

Flowith AI，解锁下一代「知识交易市场」

2025-04-20

别再堆文档了，大模型时代知识库应该这样建

2025-04-20

分享一款专注于企业知识管理和智能搜索的解决方案——MaxKb

2025-04-20

基于腾讯IMA与DeepSeek R1的个人药政知识库构建与应用实践（注48）

2025-04-20

从三种类型“企业知识”看企业生成式AI如何应用落地？

2025-04-20

金融人「偷时间」指南系列：Google NotebookLM

2025-04-19

大模型+知识管理发展趋势及标准化工作介绍

2025-04-18

错过这篇"技术支持AI知识库搭建"，你可能后悔整个 2025 年！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署 Firecrawl 爬虫让 AI 知识库更丰满

2024-09-14

用国产AI Deepseek做合同审查，强的一批！

2025-01-23

利用ChatGPT进行文献综述并完成撰写，全流程解析附指令

2024-07-10

ima.copilot一个会思考的知识库：腾讯如何重塑AI时代的知识

2024-11-07

强烈推荐 | IMA：融合 DeepSeek 满血版的个人知识库助手使用指南

2025-02-17

构建企业专属大模型知识库，解决企业知识管理与应用难点

2024-04-24

科研人员必备的40种科研工具，10大类每款都有用！最后还有几款AI大模型工具！

2024-08-04

企业知识库搭建详细指南

2024-06-23

精通RAG架构：从0到1，基于LLM+RAG构建生产级企业知识库

2024-05-15

一键打造本地专属的知识库：可接入各种大模型

2024-07-10

大家都在问

从三种类型“企业知识”看企业生成式AI如何应用落地？

2025-04-20

腾讯IMA知识库高阶玩法之六，99%的人不知道：AI时代书还能这么读？

2025-04-17

腾讯文档 “AI搜索” PK 腾讯IMA！2个不同的AI产品框架，哪个产品经理更厉害？

2025-04-17

AI开始“记忆”了，对企业意味着什么？

2025-04-13

DeepSeek时代教师大模型应用素养可分为四阶段，您在哪个阶段？

2025-04-12

企业用AI卡点在数据，无高质量数据何谈Embedding？

2025-04-11

AI热潮下的冷思考：企业是否能跳过数字化转型直接拥抱AI？

2025-04-06

制造业如何打造企业知识库？DeepSeek + RAG 真的适合你吗？

2025-03-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB