我要投稿

360开源多场景文档轻量化版式分析模型360LayoutAnalysis

发布日期：2024-07-04 17:33:38 浏览次数： 3156 作者：360技术工程

由360人工智能研究院知识图谱&文档理解团队(https://github.com/360AILAB-NLP)开源的多场景轻量化版式分析模型360LayoutAnalysis开源啦！欢迎下载使用。

主要特点：

1)涵盖中文论文、英文论文、中文研报三个垂直领域及1个通用场景模型；

2)轻量化推理快速【基于yolov8训练，单模型6.23MB】；

3)中文论文场景包含段落信息【CLDA不具备段落信息，我们开源独有】；

4)中文研报场景/通用场景【基于数万级别高质量数据训练，我们开源独有】

Github地址：

https://github.com/360AILAB-NLP/360LayoutAnalysis

模型权重-huggingface地址：

https://huggingface.co/qihoo360/360LayoutAnalysis

一、为什么要做这个事情

在数字化以及文档处理场景下，总会涉及到技术设计的方案，一般可以总结成如下三种路线：

1、PDF及其他文档类型解析路线

当前，针对不同的文档类型有不同的解析方案，如word类文档，可以通过解析内部xml文件；对于PDF可编辑文档，可以使用pdfminer,pdfplumber等工具进行解析。

这种方式的优点在于实现简单，速度很快，但这类处理方案无法处理扫描版本的文档类型。此外，对PDF这些文档进行硬解析，会丢失很多结构化信息，例如表格、图片等。

2、OCR-pipeline路线

为了解决上一种方案中存在的扫描版本文档无法解析以及结构化信息丢失等问题，目前另一种解析方案是OCR-pipeline，将文档解析任务转换成一个OCR的序列任务，包括版式分析(将文档分割成多个不同的语义区域)、图表解析、公式识别、图表解析、阅读顺序识别、文档还原等多个步骤。

这种方式的优势在于，能够处理扫描版文档，并且能够对文档的各个元素进行精细处理，能够最大化地利用文档信息，并且速度尚可（主要受限于OCR的处理），在文档理解场景下目前是通用方案。但劣势在于，其作为一个串行的解决方案，存在整体误差传播，并且每个模块都需要单独做优化，工作量很大。

3、OCR-FREE路线

OCR-FREE路线是一套端到端的方案，其利用当前的前沿多模态大模型进行处理，将文档OCR，表格解析以及图表理解建模为一个微调任务。其优点在于，路线端到端，技术前沿。

劣势也很明显，例如多模态大模型与身俱来的幻觉问题，例如上图所示，给一个大熊猫的图，让其解析成一个json_dict(让其做一个图表解析任务)，其结果就表现出了很大的幻觉性。此外，这套方案需要大量的训练数据集，并且在落地侧需要较大的显卡占用资源，在密集型文本场景下，处理速度很慢。

二、面向3大特定场景及1个通用场景的版式分析模型

在实际的文档理解落地场景里，我们需要综合考虑模型性能(性能尚可，且可以预见性地迭代优化)、模型计算资源消耗(支持cpu部署)、模型推理速度(可并发、快速推理)几个方面的因素。

因此，我们搭建了一套以版式分析为核心的文档处理组件360structure，围绕差异化场景，研发出了多套版式分析模型360LayoutAnalysis，并对外开源其中的3大特定场景及1个通用场景的版式分析模型，模型采用yolov8。

1、中文研报场景

对于研报场景而言，目前并没有相关版式分析模型出现，而研报作为金融场景的一个重要文档类型，其中包含了大量的图片、表格等富文本类型，在行文结构上错综复杂，并且富含很多决策信息。

因此，为了填补这个空白，我们通过人工标注的方式，形成了数万级别的研报标注数据集，涵盖9类标签。进行训练，并开源中文论文场景版式分析模型。

2、中文论文场景

当前，中文论文场景的数据并不多，据我们了解，在论文场景中，以往的开源数据集如：CDLA（A Chinese document layout analysis，https://github.com/buptlihang/CDLA），面向中文文献类（论文）场景，包含10类：Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation，共包含5000张训练集和1000张验证集。

不过，该数据集数量并不多，且缺乏段落信息。因此，我们重新进行数据标注，并扩充数据量，进行yolov8训练，并开源中文论文场景版式分析模型。

3、英文论文场景

在英文论文场景，当前流传最广的为Publaynet数据集(https://github.com/ibm-aur-nlp/PubLayNet),其包含Text、Title、Table、Figure、List，共5个类别，数据集中包含335,703张训练集、11,245张验证集和11,405张测试集，但该数据集不包含段落信息。

我们基于PubLayNet数据集进行训练，并开源英文论文场景版式分析模型。