微信扫码
添加专属顾问
我要投稿
探索PP-DocBee如何革新中文文档理解技术。
核心内容:
1. 中文PDF文档理解的挑战与不足
2. PP-DocBee的创新解决方案与技术细节
3. 模型架构创新及数据预处理技术
缺乏中文语料、图像与文本质量参差不齐
信息提取能力缺失
场景多样性不足
ViT+MLP+LLM架构的多模态大语言模型,在处理中文文档时无法满足实际应用中对中文文档理解的需求。
从学术论文、财务报告等专业领域筛选出复杂布局的中文PDF文档,利用文档解析工具构建包含文本、图像和公式等混合元素的单页文档图像数据集,保留原始文档的布局特征。
在问答对生成方面,采用OCR-LLM协作验证机制,利用PaddleOCR提取准确的布局结构和文本信息,再结合大型语言模型(ERNIE-Bot 4.0)的语义理解能力,通过设计合适的提示,让LLM基于OCR输出纠正基于上下文语义的OCR识别错误,并控制生成问答对的分布。

总结了九种常见图表类型,并针对每种类型设计了图像生成和问答生成方案。
以面积图为例:
首先,获取高质量的英文图表数据作为种子数据
然后,开发参数化的中文图表图像生成引擎,利用LLM语义修改图表代码中的参数,如数值、坐标轴、颜色、图例、主题等,随机选择并改变图表主题
将图表上的文本翻译成中文,同时防止渲染问题,最终通过Matplotlib将代码渲染成图像,生成丰富的中文图表图像。
在问答生成方面
基于图表代码和数据表,设计数据-图表驱动的问答生成框架
从代码和数据表中提取统计特征作为问题素材,匹配预设的基于图表类型和任务类型的问答模板
再利用LLM进行语义扩展和逻辑验证,生成包含专业问题和准确答案的中文问答对。
基于用于布局分析任务的表格数据(包括表格数据和HTML代码),设计了高质量问答生产策略。
通过建立HTML-表格双模态对齐机制,利用原始HTML表格结构作为基线信息设计层次化提示模板,提取表格主题和统计特征,生成符合认知逻辑的问答对。
PP-DocBee基于Qwen2-VL-2B模型进行开发,采用“ViT+MLP+LLM”架构,其中ViT负责图像处理以提取视觉特征,MLP对特征进行处理和整合,LLM则负责理解和生成文本。
数据预处理:
在处理图像时,Qwen2-VL采用基于patch的方法,将图像分割成多个小patch,每个patch通常为28×28像素,类似于Vision Transformer(ViT)。
在训练阶段,扩展了resize阈值范围,将上限从512像素提高到768像素,以丰富数据集的分辨率分布,从而为模型提供更全面的视觉特征谱。
在推理阶段,对于常规分辨率图像,按1.1到1.3的比例进行放大,低分辨率图像则保持原有预处理策略。
动态比例采样训练:
训练数据涵盖了多种文档理解数据集,包括通用VQA图像、OCR图像、图表、丰富文本文档、数学和复杂推理任务、合成数据以及纯文本数据。
通过实施动态数据比例采样机制,优化训练过程,并为不同数据和来源分配不同的采样权重,显著提高了高质量数据的训练比例,并平衡了不同数据集之间的数量差异。
OCR后处理:
在推理阶段,使用OCR工具或模型预先从图像中提取文本,将提取的文本作为辅助先验信息提供给图像问题。
具体而言,将OCR识别的文本添加到PP-DocBee模型的输入中,通过在原始问题前添加提示“使用图像和OCR结果作为上下文并回答以下问题:”,有效提升了模型在包含清晰且有限文本的图像上的性能。
在线体验地址:https://aistudio.baidu.com/application/detail/60135
python paddlemix/examples/ppdocbee/ppdocbee_infer.py \
--model_path "PaddleMIX/PPDocBee-2B-1129" \
--image_file "paddlemix/demo_images/medal_table.png" \
--question "识别这份表格的内容"
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-27
第一个专为AI设计的“网站”(WebAgent)诞生了:这也许是一个里程碑
2025-03-26
Chat GPT文生图不用DALL·E模型了?
2025-03-26
用多模态模型,写新一代爬虫
2025-03-26
刚刚,OpenAI 发布生图神器狙击 Google!一句话 P 图奥特曼现场玩梗,免费能用
2025-03-26
GPT-4o 生图实测:很强(附:20+场景示例 & 缺陷整理)
2025-03-24
0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!
2025-03-24
主流多智能体框架设计原理
2025-03-21
为了致敬Manus,我做了一款产品
2024-09-12
2024-06-14
2024-08-06
2024-06-17
2024-05-30
2024-08-30
2024-10-07
2024-11-28
2024-04-21
2024-10-16