AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
发布日期:2024-12-20 11:15:07 浏览次数: 2196 来源:深入LLM Agent应用开发

在 RAG 应用中,处理多样化的文件格式是一项常见且挑战性的任务,尤其是 PDF 文件的解析一直让开发者头疼。市面上虽然有不少 PDF 解析工具,但效果参差不齐,详情可参考上一篇《破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择》。近日,微软开源了 Markitdown,宣称能够将任意文件转换为 Markdown 格式,何德何能短短数日就飙升到 23K 星星?其 PDF 解析能力究竟如何,本文将深入探讨这一工具的性能和潜力。

1. 简介

Markitdown 除了支持转换微软自家的 Office 文件格式,其他常见的 PDF、HTML 格式都可以处理,甚至还能够处理 Audio 文件,自动转译为文本。图像类的文件,可以配置大模型自动生成描述文本。

  • PDF
  • PowerPoint
  • Word
  • Excel
  • Images
  • Audio
  • HTML
  • 各种其他基于文本的格式 (csv, json, xml, etc.)
  • ZIP files (iterates over contents)

介绍完毕,开始测试

2. 安装

安装很简单,执行如下命令即可。

pip install markitdown

3. 简单使用

使用起来也很简单,使用命令或者 API。

  • 命令
markitdown path-to-file.pdf > document.md
  • API
from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("exmaple.pdf")
print(result.text_content)

4. 测试 PDF

我最关注的还是 PDF 文本的转换,之前的测评文章有讨论过 PDF 解析主要是表格和布局的问题,文本提取基本问题不大。那么 markitdown 的表格提取表现如何?我们尝试转换 LightRAG 的论文。

markitdown lightrag.pdf > lightrag.md
  • 原文表格

LightRAG 里有一个复杂表格,这里就不演示了,使用最简单的表格。

  • 提取后表格

可以说完全丢弃 Style,连表格的样式都没有,最重要的是文字的顺序也没有排对。为什么这么差?这和 markitdown 的实现有关,让我们扒一扒咋实现的

5. 一探深浅

markitdown 的代码非常少,核心代码就两个文件:入口文件__main__.py和具体实现__markitdown.py。 入口代码很简单,就是接收文件然后调用 convert。

parser.add_argument("filename", nargs="?") args = parser.parse_args() if args.filename is None: markitdown = MarkItDown() result = markitdown.convert_stream(sys.stdin.buffer) print(result.text_content) else: markitdown = MarkItDown() result = markitdown.convert(args.filename) print(result.text_content)

markitdown 会根据文件的扩展名自动选择转换工具,让我们重点看一下 PDF 的转换器。

class PdfConverter(DocumentConverter):
    """
    Converts PDFs to Markdown. Most style information is ignored, so the results are essentially plain-text.
    """


    def convert(self, local_path, **kwargs) -> Union[None, DocumentConverterResult]:
        # Bail if not a PDF
        extension = kwargs.get("file_extension""")
        if extension.lower() != ".pdf":
            return None

        return DocumentConverterResult(
            title=None,
            text_content=pdfminer.high_level.extract_text(local_path),
        )

是的,你没看错,它其实只是调用 pdfminer 来提取。所以这个工具的目的是集成开源工具包,统一 Markdown 文件转换。从两个文件的实现就知道了。所以对于 Markitdown 不要抱有它解析某某文件是不是更厉害?它只是一个 Wrapper 而不是 Parser。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询