我要投稿

让PDF格式为LLM应用做好准备：探索Marker开源工具

发布日期：2024-09-01 18:49:40 浏览次数： 2325 作者：七哥的AI日常

在如今的大数据时代，高质量的数据可谓是LLM（大语言模型）应用成功与否的关键因素。然而，大多数文本数据通常以PDF格式存在。这不仅适用于企业文档，也包括个人文件。然而，对于LLM而言，处理PDF文件极其困难。PDF本质上是一种破碎的格式，具有复杂的结构。文档中嵌套了不同数据类型的元素，并且没有统一的布局，这使得从PDF中提取数据变得十分繁琐。此外，不同的编码、字体、格式、表格和图像等问题也给处理PDF文件带来了额外的挑战。

在将PDF文件转换为适合LLM处理的格式时，人们探索了多种方法。例如，有些方法将PDF转换为纯文本以便于解析，然后使用机器学习模型检测PDF布局，再使用光学字符识别（OCR）模型检测PDF中的文本。然而，这些过程都相当繁琐且容易出错。

相比之下，使用Markdown格式处理LLM要容易得多，因为可以轻松将其转换为纯文本。Markdown可以保留原始格式，包括标题、标题、图像和表格等元素，并且LLM可以有效地处理这些结构化的Markdown元素。

Marker：将PDF转换为结构化Markdown的开源工具

本文将向您展示一款开源工具Marker，它可以将复杂的PDF文件转换为结构化的Markdown格式。如果您需要将PDF文件转换为Markdown格式，有一些付费选项，例如Mathplix，可以将PDF转换为Markdown或提取可读文本。如果您更倾向于使用开源选项，可以选择Meta的NuGet项目，但它主要侧重于学术文档。

相比NuGet，Marker的性能更优。例如，一页文本使用Marker大约需要100秒，而NuGet需要400秒左右。此外，Marker的准确性几乎是NuGet的两倍。以下是一个将《Think Python》这本书使用NuGet和Marker转换的示例。NuGet在转换过程中忽略了前几页和目录，而Marker能够准确保留所有内容，包括目录和章节。

Marker的特点与局限

Marker支持各种文档类型，特别是书籍和科学论文，但我也测试了简历等其他类型文档，效果也很不错。它支持所有语言，尽管我不确定作者所说的“所有语言”具体指什么。Marker可以去除页眉、页脚和其他多余的元素，并且能够格式化表格和代码块，同时提取和保存图像。它还可以将大多数公式转换为LaTeX格式，具体取决于公式的复杂程度。更棒的是，它可以在GPU、CPU或Apple Silicon上运行。

当然，Marker也有一些局限性。由于PDF格式本身就较为复杂，Marker无法将所有公式100%转换为LaTeX，表格也不总是完全正确地格式化。此外，空白字符有时不会得到完全尊重，行间跨度也可能不会总是正确连接。但在我的测试中，它能够处理大多数PDF文件。