AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


超强 AI 解析器:轻松处理文档、网页、音视频等 10 几种文档,高效清洗和组织你的数据!
发布日期:2024-07-08 08:24:05 浏览次数: 2338 来源:AI真好玩


OmniParse 是一个强大的数据转换工具,它能够将各种非结构化数据源转化为结构化、易于操作的格式。这个平台专为与生成式人工智能(GenAI)应用程序,如大语言模型的集成而设计。

无论是文档、电子表格、图片、视频、音频还是网页内容,OmniParse 都能高效地清洗和组织您的数据,使其成为适用于如检索增强生成(RAG)和模型微调等先进人工智能技术的理想输入。

近期热文

OmniParse 主要特点

  • 支持 10 几种文件类型
  • 支持将文档、多媒体和网页,转换成高质量的 Markdown 文档
  • 支持表格抽取、图像提取、音视频转录(语音转文本)和网页抓取等
  • 完全本地化运行,无需外部 API
  • 可使用 Docker 和 Skypilot 快速部署

OmniParse 使用示例

操作界面

解析效果

OmniParse 快速上手

本机安装

注意:目前 OmniParse 只能在 Linux 的系统上运行。这是因为某些依赖项和特定系统配置与 Windows 或 macOS 不兼容。

1.克隆项目

git clone https://github.com/adithya-s-k/omniparse
cd omniparse

2.创建虚拟环境

conda create --name omniparse-venv python=3.10
conda activate omniparse-venv

3.安装依赖

poetry install
# or
pip install -e .

Docker 安装

docker pull savatar101/omniparse:0.1
# if you are running on a gpu 
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# else
docker run -p 8000:8000 savatar101/omniparse:0.1

启动服务器

python server.py --host 0.0.0.0 --port 8000 --documents --media --web
  • --documents:加载解析和提取文档的模型(SuryaOCR 和 Florence-2)
  • --media:加载 Whisper 模型,拥有转录音视频文件
  • --web:配置 selenium 环境

启动 API 服务器

python main.py --host 0.0.0.0 --port 8000

当 API 服务器正常启动后,就可以通过 HTTP 请求来调用 OmniParse 服务。文档解析的使用示例如下:

1.解析 PDF 文档

curl -X POST -F "file=@/path/to/document.pdf" http://localhost:8000/parse_document/pdf

2.解析 PPT

curl -X POST -F "file=@/path/to/presentation.ppt" http://localhost:8000/parse_document/ppt

3.解析 Word

curl -X POST -F "file=@/path/to/document.docx" http://localhost:8000/parse_document/docs

4.解析图片

curl -X POST -F "image=@/path/to/image.jpg" -F "task=Caption" http://localhost:8000/parse_image/process_image

5.解析视频

curl -X POST -F "file=@/path/to/video.mp4" http://localhost:8000/parse_media/video

6.解析音频

curl -X POST -F "file=@/path/to/audio.mp3" http://localhost:8000/parse_media/audio

7.解析网页

curl -X POST -H "Content-Type: application/json" -d '{"url": "https://example.com"}' http://localhost:8000/parse_website

https://github.com/adithya-s-k/omniparse



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询