微信扫码
添加专属顾问
我要投稿
Markitdown 除了支持转换微软自家的 Office 文件格式,其他常见的 PDF、HTML 格式都可以处理,甚至还能够处理 Audio 文件,自动转译为文本。图像类的文件,可以配置大模型自动生成描述文本。
介绍完毕,开始测试
安装很简单,执行如下命令即可。
pip install markitdown
使用起来也很简单,使用命令或者 API。
markitdown path-to-file.pdf > document.md
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("exmaple.pdf")
print(result.text_content)
我最关注的还是 PDF 文本的转换,之前的测评文章有讨论过 PDF 解析主要是表格和布局的问题,文本提取基本问题不大。那么 markitdown 的表格提取表现如何?我们尝试转换 LightRAG 的论文。
markitdown lightrag.pdf > lightrag.md
LightRAG 里有一个复杂表格,这里就不演示了,使用最简单的表格。
可以说完全丢弃 Style,连表格的样式都没有,最重要的是文字的顺序也没有排对。为什么这么差?这和 markitdown 的实现有关,让我们扒一扒咋实现的
markitdown 的代码非常少,核心代码就两个文件:入口文件__main__.py
和具体实现__markitdown.py
。 入口代码很简单,就是接收文件然后调用 convert。
parser.add_argument("filename", nargs="?") args = parser.parse_args() if args.filename is None: markitdown = MarkItDown() result = markitdown.convert_stream(sys.stdin.buffer) print(result.text_content) else: markitdown = MarkItDown() result = markitdown.convert(args.filename) print(result.text_content)
markitdown 会根据文件的扩展名自动选择转换工具,让我们重点看一下 PDF 的转换器。
class PdfConverter(DocumentConverter):
"""
Converts PDFs to Markdown. Most style information is ignored, so the results are essentially plain-text.
"""
def convert(self, local_path, **kwargs) -> Union[None, DocumentConverterResult]:
# Bail if not a PDF
extension = kwargs.get("file_extension", "")
if extension.lower() != ".pdf":
return None
return DocumentConverterResult(
title=None,
text_content=pdfminer.high_level.extract_text(local_path),
)
是的,你没看错,它其实只是调用 pdfminer 来提取。所以这个工具的目的是集成开源工具包,统一 Markdown 文件转换。从两个文件的实现就知道了。所以对于 Markitdown 不要抱有它解析某某文件是不是更厉害?它只是一个 Wrapper 而不是 Parser。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-24
Microsoft 推出 Magentic-UI:网页多智能体,革新式人机协作(万字)
2025-05-24
「文档处理终结者」字节跳动Dolphin开源:从合同到试卷全搞定,多语言OCR+智能排版还原,B端企业刚需
2025-05-24
笑喷了!烧菜做饭的MCP出炉了,超过8万人在用
2025-05-23
DeerFlow:手把手教你把字节开源的GitHub深度研究项目部署到本地
2025-05-23
微软开源Web Agent项目:Magentic-UI!让 AI 成为真正“可控、协同、透明”的网页执行助手!
2025-05-23
从基础大模型到场景适配,企业如何做好商业化最后一公里?
2025-05-22
Muscle-mem:AI用大脑指挥“小脑”,把思考固化为条件反射
2025-05-22
惊爆!WeClone 开启数字永生新时代,打造专属你的数字分身
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-12-26
2024-08-13
2025-05-23
2025-05-17
2025-05-17
2025-05-17
2025-05-16
2025-05-14
2025-05-12
2025-04-30