AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


开源 PDF 表格抽取神器来了:一键提取 PDF 表格数据,还提供 Web 可视化操作界面!
发布日期:2024-07-10 11:11:00 浏览次数: 1918


在信息爆炸的今天,我们经常面临着从大量 PDF 文档中提取关键数据的挑战。无论是财务报表、市场调研数据还是法律文档,这些PDF 文件中蕴含的表格信息往往需要被转换为可操作的数据格式,以便进行进一步的分析和处理。然而,手动从 PDF 中提取表格数据不仅耗时,而且容易出错,这对于追求效率和精确度的专业人士来说是一个不小的难题。

本文我将介绍一个开源的 PDF 表格抽取工具 —— camelot[1]

camelot 使用示例

camelot 快速上手

  1. 新建 camelot 项目
  2. 安装 Ghostscript[2],它用于解析 PDF 文件。macOS 用户可以使用 brew 来安装 Ghostscript。
brew install ghostscript
  1. 使用 pip 安装 camelot
pip install "camelot-py[base]"
  1. 新建 main.py 文件并输入以下内容
import camelot

tables = camelot.read_pdf('foo.pdf')
tables.export('foo.csv', f='csv', compress=False)
  1. 运行 main.py 程序
python3 main.py

对于 macOS 或 Linux 系统的用户来说,在运行 main.py 程序时,如果出现以下错误:

/ghostscript/_gsprint.py", line 267, in <module>
    raise RuntimeError("Please make sure that Ghostscript is installed")

可以在运行程序前,先配置 DYLD_LIBRARY_PATH 环境变量:

export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/

成功运行 main.py 程序之后,在 camelot 项目根目录下生成对应的 csv 文件。

excalibur 快速上手

为了方便用户使用 camelot,camelot 团队提供了一个 Web 工具 —— excalibur[3]

  1. 使用 pip 安装 excalibur
pip install excalibur-py
  1. 初始化数据库
excalibur initdb
  1. 启动 excalibur 服务器
excalibur webserver

当服务器成功启动后,在浏览器中打开 http://127.0.0.1:5000/files 地址,就会看到以下操作界面:

之后,点击 Upload PDF 按钮选择本地 PDF 文件,就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能,使用效果如下图所示:



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询