AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


11K star!一站式数据提取神器,PDF、网页、电子书通通搞定!
发布日期:2024-09-11 21:17:17 浏览次数: 1731 来源:开源先锋


我们每天都要和各种文档打交道,PDF文档、网页、电子书……这些格式各异的文档让我们既爱又恨。爱的是它们携带的丰富信息,恨的是处理和提取这些信息时的繁琐与不便。

今天开源君来和大家聊聊一个超级给力的开源项目 - MinerU,别看它名字听起来像挖矿的,实际上,它可是文档处理和提取的“神器”!

项目简介

MinerU一个由opendatalab团队打造的一站式开源数据提取工具,旨在帮助研究人员和开发者更方便地获取、处理、分析数据。它支持多种数据集的管理,自动化的数据清洗,并且还有强大的模型库,简直就是文档处理界的“瑞士军刀”!

它主要由两个组件构成:Magic-PDF和Magic-Doc。Magic-PDF专攻PDF文档的提取,而Magic-Doc则负责网页和电子书的提取工作。有了它们俩,无论是学术研究、技术写作还是日常办公,文档处理都变得轻松愉快。

目前在Github上收获了11K star!

性能特色

  • 多模态文档转换:支持将包含图片、公式、表格、脚注等复杂元素的PDF文档转化为Markdown格式,便于机器阅读和进一步处理。
  • 内容提取:不仅能从PDF中提取信息,还能从网页和电子书中快速提取正式内容,自动去除广告等干扰信息。
  • 保留文档结构:在转换过程中,它能完美保留原始文档的结构,如标题、段落、列表等,让转换后的文档依然条理清晰。
  • 图像和表格提取:文档中的图像、表格也能被准确提取,并嵌入到Markdown中,方便后续编辑和展示。
  • 公式转换:自动识别并转换文档中的数学公式为LaTeX格式,对于学术工作者来说,简直是福音!
  • 乱码处理:遇到乱码PDF也不怕,MinerU能自动识别并转换,提高文档的可读性。
  • 跨平台支持:兼容Windows、Linux和Mac操作系统
  • 硬件兼容性:支持在CPU和GPU环境下运行,利用你的硬件资源,提升处理速度。

快速安装部署

想要快速上手MinerU,可以直接使用官方9月份刚刚上线的online Demo,在OpenDataLab、HuggingFace、ModelScope上面均有部署,可以直接使用。

想本地部署的话,也是可以的。安装前注意看软硬件环境支持说明。

使用CPU的快速部署:

# 1. 安装依赖
conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple

# 2. 下载模型权重文件
# 根据官方文档(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作

# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 编辑 ~/magic-pdf.json,设置正确的模型文件路径

# 4. 开始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

使用GPU的快速部署:

官方介绍了Ubuntu 22.04 LTS + GPU、Windows 10/11 + GPU和Docker(需要有16GB 的 VRAM)的三种情况,需要的可以去详细查看。

效果展示

MinerU是一款功能强大、易于上手的开源数据提取工具。它不仅能帮助我们提高文档处理效率,还能让我们更加便捷地分享和利用信息。无论你是学生党、研究者还是工作党,只要你需要处理文档,MinerU都能成为你的得力助手。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询