我要投稿

开源 PDF 表格抽取神器来了：一键提取 PDF 表格数据，还提供 Web 可视化操作界面！

发布日期：2024-07-10 11:11:00 浏览次数： 3367

作者：AI真好玩

微信搜一搜，关注“AI真好玩”

在信息爆炸的今天，我们经常面临着从大量 PDF 文档中提取关键数据的挑战。无论是财务报表、市场调研数据还是法律文档，这些PDF 文件中蕴含的表格信息往往需要被转换为可操作的数据格式，以便进行进一步的分析和处理。然而，手动从 PDF 中提取表格数据不仅耗时，而且容易出错，这对于追求效率和精确度的专业人士来说是一个不小的难题。

本文我将介绍一个开源的 PDF 表格抽取工具 —— camelot^[1]。

camelot 使用示例

camelot 快速上手

新建 camelot 项目
安装 Ghostscript^[2]，它用于解析 PDF 文件。macOS 用户可以使用 brew 来安装 Ghostscript。

brew install ghostscript

使用 pip 安装 camelot

pip install "camelot-py[base]"

新建 main.py 文件并输入以下内容

import camelot

tables = camelot.read_pdf('foo.pdf')
tables.export('foo.csv', f='csv', compress=False)

运行 main.py 程序

python3 main.py

对于 macOS 或 Linux 系统的用户来说，在运行 main.py 程序时，如果出现以下错误：

/ghostscript/_gsprint.py", line 267, in <module>
    raise RuntimeError("Please make sure that Ghostscript is installed")

可以在运行程序前，先配置 DYLD_LIBRARY_PATH 环境变量：

export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/

成功运行 main.py 程序之后，在 camelot 项目根目录下生成对应的 csv 文件。

excalibur 快速上手

为了方便用户使用 camelot，camelot 团队提供了一个 Web 工具 —— excalibur^[3]。

使用 pip 安装 excalibur

pip install excalibur-py

初始化数据库

excalibur initdb

启动 excalibur 服务器

excalibur webserver

当服务器成功启动后，在浏览器中打开 http://127.0.0.1:5000/files 地址，就会看到以下操作界面：

之后，点击 Upload PDF 按钮选择本地 PDF 文件，就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能，使用效果如下图所示：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-11

被Qoder产品经理老友访谈：老产品经理的AI编程工具使用实录

2026-03-10

实测腾讯QClaw：微信找到了和“龙虾”共存的方式

2026-03-03

阿里桌面Agent QoderWork全面开放！人人可用的智能体来了

2026-03-01

AI 自媒体业务 SOP，我让 MaxClaw + 钉钉 AI 表格接管了！

2026-02-28

Obsidian 1.12 正式发布！官方 CLI 命令行工具上线，你的知识库从此可编程、可自动化

2026-02-26

装上这个Skills，让整个GitHub为你打工

2026-02-24

我分析了 1000 个 skills，这是最推荐的 30 个

2026-02-23

后悔没早用！AstrBot让我的微信变成最强AI助手

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Skills商店来了：5万人在用的Top 10热门Skills，我帮你试了一遍

2026-01-24

我分析了 1000 个 skills，这是最推荐的 30 个

2026-02-24

扔掉第三方插件吧！Obsidian官方知识库Skills来了！

2026-01-08

Agent Skills 管理神器：SkillsLM 一条命令覆盖 9 个平台

2026-01-18

飞牛OS | 相遇clawdbot，让小龙虾接管飞牛充当贾维斯

2026-01-29

这款免费的Gemini神级插件，竟然还有那么多人没用上！效率提升99%

2026-01-24

claude code更新了，利用Antigravity Tools用上了cc

2026-01-21

Obsidian 1.12 正式发布！官方 CLI 命令行工具上线，你的知识库从此可编程、可自动化

2026-02-28

玩转Clawdbot一键秒级部署指南

2026-01-27

Claude SKILL实战：使用SKILL进行自动化浏览器操作

2025-12-27

大家都在问

Coding Agent 的最终形态是 TUI + GUI 吗？

2026-02-04

谁来给桌面 Agent 的转正签字？

2026-01-21

AI 正在稀释「专家」，什么才是你的新护城河？

2026-01-18

Notion CEO发布AI年度思考笔记，发布1天，200万人围观，AI职场人的黄金时代刚刚开始？

2025-12-25

有了 NotebookLM 后，还需要 Obsidian 吗？

2025-12-10

谁是中国 AI 创新的第一公里？

2025-12-09

千问 APP 再更新：为什么说「聊天」并不是 AI 产品的终点？

2025-12-04

有了 AI 后，你的工作更轻松了吗？

2025-11-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw