我要投稿

RAG文档解析利器：Deepdoc

发布日期：2024-08-03 17:15:18 浏览次数： 3029

作者：深度学习机器

微信搜一搜，关注“深度学习机器”

项目结构

|--deepdoc
|--parser
|--resume
|--entities
|--step_one.py
|--step_two.py
|--docx_parser.py
|--pdf_parser.py
|--excel_parser.py
|--html_parser.py
|--json_parser.py
|--markdown_parser.py
|--ppt_parser.py
|--vision
|--layout_recoginzer.py
|--ocr.py
|--ocr.res
|--operators.py
|--postprocess.py
|--recoginzer.py
|--seeit.py
|--t_recoginzer.py
|--t_ocr.py
|--table_structure_recognizer.py

核心组件

• OCR
• 版面结构分析
• 表格结构识别
• 解析器

解析器

简历类型的处理

简历是完全没有规律的文档，一份简历可以分解为多个字段组成的结构化数据。因此需要做特殊处理，entities中定义了一些大学、公司、产业等信息，用于后续关键词提取；整个简历的处理过程分为两部进行：第一步先根据预先定义的关键词提取有效信息、接着再第二步再做一些合并以及过滤操作。

PDF文档的处理

PDF文档比较复杂，需要用到OCR模型，并且版面结构不同，内置了很多排序规则，另外还用到了XGB用于规则之外的补充。

经过实测，规则已经处理了绝大部分文本块的排序过程，XGB作用不大，并且通过特征重要性可以看到主要是坐标类型的特征起到了作用。

整个处理流程可以简化如下：文档转图片->版面分析->表格识别->文字识别->合并段落->后处理

其他类型的处理

每一种类型的文档都有一个对应的解析器，基本都是用现成的库进行处理的。

视觉信息处理

版面结构识别

不同类型的文件具有不同的布局，对于论文来说，会包含较多的图表、甚至还会有公式，因此只有当准确识别出文件的类型和布局才能有效处理该文档。版面结构定义了以下10种类别，用于区分不同的内容：

• 文本
• 标题
• 配图
• 配图标题
• 表格
• 表格标题
• 页头
• 页尾
• 参考引用
• 公式

执行命令:

python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=layout --output_dir=path_to_store_result

表格结构识别

表的结构可能非常复杂，比如多层次结构标题、跨单元格以及行列结构不统一等。表结构识别针对表格内容定义了5种类别：

• 列
• 行
• 列标题
• 行标题
• 合并单元格

执行命令:

python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=tsr --output_dir=path_to_store_result

与版面结构分析不同，表格结构识别只会把可能是表格的区域识别出来

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-11

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

2026-03-10

从向量里逆向出原始文本和模型来源

2026-02-27

如何用 AI 做业务级 Code Review

2026-02-22

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

AIOps探索：做运维领域的RAG，如何做数据清洗

2026-02-21

Claude Code 每次都要重新探索代码？这个工具直接省下30%成本

2026-02-18

函数计算 AgentRun 重磅上线知识库功能，赋能智能体更“懂”你

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

从 RAG 到 Context：2025 年 RAG 技术年终总结

2025-12-18

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

企业RAG知识库系统中关于向量数据库的对比选型指南

2025-12-31

当 Claude Code 连接 NotebookLM，个人 AI 终于有了“长期记忆”

2026-01-06

Claude Code 外挂最强大脑 NotebookLM Skill

2025-12-29

大家都在问

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

2026-01-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw