微信扫码
与创始人交个朋友
我要投稿
MinerU 是一款由上海人工智能实验室OpenDataLab团队发布的全能、开源的文档与网页数据提取工具。它能够将包含图片、表格、公式等元素的多模态PDF文档转化为清晰、易于分析的Markdown格式,同时也支持从包含广告等干扰信息的网页中快速解析、抽取正式内容,并将其批量转化为Markdown格式。
# 1. 安装依赖
conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple
# 2. 下载模型权重文件
# 根据官方文档(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作
# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 编辑 ~/magic-pdf.json,设置正确的模型文件路径
# 4. 开始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto
# 检查您的设备是否支持Docker上的CUDA加速。
docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi
# 运行 docker 部署
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .
docker run --rm -it --gpus=all mineru:latest /bin/bash
magic-pdf --help
更多使用方式,请查阅如下提供地址
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-06
86 条 DeepSeek 的关键思考 |Best Ideas 开源
2025-02-06
GitCode 重磅上线 DeepSeek 全家桶!领航国产大模型新征程
2025-02-06
Dify x DeepSeek:轻松部署私有化 AI 助手,搭建本地 DeepSeek R1+ 联网搜索 App
2025-02-06
等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开
2025-02-06
Open Notebook:开源AI笔记工具,支持多模型与多格式内容集成
2025-02-05
一文纵览DeepSeek模型家族:从LLM到R1
2025-02-05
抱抱脸24小时复刻Deep Research,一个团队完成一个OpenAI~
2025-02-05
从0-1:DeepSeek 大模型本地部署全攻略
2025-01-01
2024-07-25
2024-05-06
2025-01-21
2024-08-13
2024-06-12
2024-09-20
2024-07-20
2024-07-11
2024-12-26
2025-01-22
2025-01-16
2024-12-24
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13