我要投稿

2.7K+ Star！LlamaParse：一个为RAG和代理打造的文档解析神器

发布日期：2024-10-02 00:39:13 浏览次数： 2729

作者：AIGC创想者

微信搜一搜，关注“AIGC创想者”

LlamaParse 简介

LlamaParse^[1] 是一个专为生成式人工智能（GenAI）设计的文档解析器，能够解析复杂的文档数据，以适应任何下游大型语言模型（LLM）的使用场景，如检索增强生成（RAG）或智能代理。

它能够解析多种复杂的文件类型，包括 PDF、PPTX、DOCX、XLSX 和 HTML，并且支持表格识别、多模态解析和自定义解析。

项目特点

主要特点

广泛的文件类型支持：支持解析多种非结构化文件类型，包括 PDF、PPTX、DOCX、XLSX、HTML 等，涵盖文本、表格、视觉元素、复杂布局等。
表格识别：能够将嵌入的表格准确解析为文本和半结构化表示。
多模态解析和分块：提取视觉元素（图像/图表）并将其转换为结构化格式，使用最新的多模态模型返回图像块。
自定义解析：输入自定义提示指令，以自定义输出方式。

使用场景

企业文档管理：将企业文档转换为结构化数据，便于检索和分析。
数据整合：将不同来源的非结构化数据整合为统一格式，以供进一步处理。
自动化报告生成：从文档中提取关键信息，自动生成报告或摘要。

项目使用

获取 API 密钥：访问 LlamaIndex Cloud^[2] 获取 API 密钥。
安装 LlamaIndex：确保安装了最新版本的 LlamaIndex。
安装 LlamaParse：使用 pip install llama-parse 命令安装 LlamaParse 包。
解析文档：使用 LlamaParse 提供的接口，上传并解析文档。

示例代码

import nest_asyncio
nest_asyncio.apply()

from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # 也可以设置环境变量 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可选 "markdown" 和 "text"
    num_workers=4,  # 如果上传多个文件，将分成 `num_workers` 个 API 调用
    verbose=True,
    language="en",  # 可选定义语言，默认为英文
)

# 同步解析单个文件
documents = parser.load_data("./my_file.pdf")

# 同步批量解析
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])

# 异步解析单个文件
documents = await parser.aload_data("./my_file.pdf")

# 异步批量解析
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])