微信扫码
添加专属顾问
我要投稿
在信息爆炸的今天,我们经常面临着从大量 PDF 文档中提取关键数据的挑战。无论是财务报表、市场调研数据还是法律文档,这些PDF 文件中蕴含的表格信息往往需要被转换为可操作的数据格式,以便进行进一步的分析和处理。然而,手动从 PDF 中提取表格数据不仅耗时,而且容易出错,这对于追求效率和精确度的专业人士来说是一个不小的难题。
本文我将介绍一个开源的 PDF 表格抽取工具 —— camelot[1]。
brew 来安装 Ghostscript。brew install ghostscript
pip install "camelot-py[base]"
main.py 文件并输入以下内容import camelot
tables = camelot.read_pdf('foo.pdf')
tables.export('foo.csv', f='csv', compress=False)
main.py 程序python3 main.py
对于 macOS 或 Linux 系统的用户来说,在运行 main.py 程序时,如果出现以下错误:
/ghostscript/_gsprint.py", line 267, in <module>
raise RuntimeError("Please make sure that Ghostscript is installed")
可以在运行程序前,先配置 DYLD_LIBRARY_PATH 环境变量:
export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/
成功运行 main.py 程序之后,在 camelot 项目根目录下生成对应的 csv 文件。
为了方便用户使用 camelot,camelot 团队提供了一个 Web 工具 —— excalibur[3]。
pip install excalibur-py
excalibur initdb
excalibur webserver
当服务器成功启动后,在浏览器中打开 http://127.0.0.1:5000/files 地址,就会看到以下操作界面:
之后,点击 Upload PDF 按钮选择本地 PDF 文件,就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能,使用效果如下图所示:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-11
被Qoder产品经理老友访谈:老产品经理的AI编程工具使用实录
2026-03-10
实测腾讯QClaw:微信找到了和“龙虾”共存的方式
2026-03-03
阿里桌面Agent QoderWork全面开放!人人可用的智能体来了
2026-03-01
AI 自媒体业务 SOP,我让 MaxClaw + 钉钉 AI 表格接管了!
2026-02-28
Obsidian 1.12 正式发布!官方 CLI 命令行工具上线,你的知识库从此可编程、可自动化
2026-02-26
装上这个Skills,让整个GitHub为你打工
2026-02-24
我分析了 1000 个 skills,这是最推荐的 30 个
2026-02-23
后悔没早用!AstrBot让我的微信变成最强AI助手
2026-01-24
2026-02-24
2026-01-08
2026-01-18
2026-01-29
2026-01-24
2026-01-21
2026-02-28
2026-01-27
2025-12-27
2026-02-04
2026-01-21
2026-01-18
2025-12-25
2025-12-10
2025-12-09
2025-12-04
2025-11-20