我要投稿

【文档智能&大模型】表格提取工具包PdfTable及大模型偏好学习综述

发布日期：2024-09-11 19:48:23 浏览次数： 2948

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2024年9月11日，星期三，北京，天气阴

我们来看两个工作，一个是PdfTable工具包：深度学习在表格提取中的统一应用，另一个是大模型偏好学习综述。

这两个方案都很有趣，对于理解一些技术细节，供大家一起参考并思考。

一、PdfTable工具包用于表格提取

《PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction 》(https://arxiv.org/pdf/2409.05125，代码：https://github.com/CycloneBoy/pdf_table，注注意，代码仓库还是空的)介绍了一个名为PdfTable的统一工具包，用于从PDF文件和图像中提取表格信息。

该工具包集成了多个开源模型，能够适应不同的应用场景，如处理有线表格、无线表格、数字PDF和图像PDF等。

1、 PdfTable库的设计和实现

PdfTable 由四个主要模块组成，包括布局分析、表格结构识别、文本检测与识别以及应用模块。

处理流程包括输入预处理、布局分析、表格结构识别、文本提取和应用。

2、表格解析流水线（PdfTable Parse Pipeline）

输入预处理（Input Preprocessing）：

输入可以是 PDF 文件或图像文件。
如果是 PDF 文件，需要下载并转换为图像格式。数字 PDF 使用 Ghostscript 转换，图像 PDF 则直接提取。
校正图像方向，确保文档方向为0度，以便后续处理。
布局分析（Layout Analysis）：

将图像分割成不同的区域，如文本、表格和图片。
使用对象检测模型来识别和分类图像中的不同元素。如 PP-PicoDet、DocxLayout 和 LayoutParser，将图像分割成不同的区域。

表格结构识别（Table Structure Recognition）：

根据布局分析的结果，识别出表格区域。
表格区域进一步区分为有线表格和无线表格。
有线表格：使用算法直接识别表格边框，然后恢复表格结构。使用 LineCell 算法或深度学习算法如 CycleCenterNet 和 LORE 识别表格边框。
无线表格：使用图像到序列生成技术，直接生成标记和文本边框来表示表格结构。使用图像到序列生成技术，如 SLANet、LGPMA、TableMaster 和 MTL-TabNet。

文本检测与识别（Text Detection and Recognition）：

对于数字 PDF，直接从 PDF 提取文本坐标和内容。如使用 pdfminer.six 直接提取文本。
对于扫描的 PDF 或图像，使用 OCR 工具提取文本。如使用 OCR 工具如 PaddleOCR、EasyOCR、TesseractOCR 和 duguangOCR 提取文本。

表格内容提取（Table Content Extraction）：

将表格区域中的文本与表格结构匹配，生成表格的 HTML 表示。
其他文本通过段落合并模块（Paragraph Merging Module）合并成段落。

应用（Application）：

将识别的表格、文本段落和图片统一表示为 PdfCell 结构，并输出为不同的文件格式，如 HTML、DOCX 或 Excel。

二、大模型偏好学习综述

关于大模型偏好学习综述，《Towards a Unified View of Preference Learning for Large Language Models: A Survey》：https://arxiv.org/html/2409.02795v3，提供了对大型语言模型（LLM）偏好学习领域的全面概述，该供工作提出了一个统一的框架，将偏好学习策略分解为四个组成部分：模型、数据、反馈和算法。这个框架有助于深入理解现有的对齐算法，并揭示了不同策略之间的联系。

其中，在数据方面，讨论了如何收集偏好数据，包括在线（on-policy）和离线（off-policy）数据收集方法，以及这些数据如何从人类或LLM生成。

在算法方面，介绍了多种算法，包括点式（point-wise）、成对（pair-wise）、列表式（list-wise）方法，以及无需训练的对齐方法。这些算法通过不同的方式利用数据和反馈来优化LLM。

在评估方面，讨论了如何评估LLM的偏好学习，包括基于规则的评估和基于LLM的评估方法，以及这些方法的局限性。

可以重点看看一下几个图：

1、大模型偏好学习的组成

Figure 1 提供了一个关于大型语言模型（LLM）偏好学习统一视角的图示性说明。

偏好学习的目标：图的中心是将一个现有的 LLM（πθ）通过偏好学习的过程，转化为一个与人类偏好更加一致的模型（πθ'）。

数据（Data）：偏好学习过程开始于数据的收集。这些数据通常包括输入（input）和对应的输出（response），这些输出是模型基于输入生成的。

反馈（Feedback）：基于模型的输出，会得到环境（例如人类评估者或另一个模型）提供的反馈。这个反馈可以是直接的奖励信号，也可以是基于规则或模型的评分。

偏好优化（Preference Optimization）：利用收集到的数据和反馈，通过特定的算法对模型进行优化。这个过程可能涉及到训练新的模型参数，或者在模型生成的输出上应用某种优化技术。

评估（Evaluation）：优化后的模型需要通过评估来确定其性能。评估可以通过规则基（Rule-based）的方法，例如检查模型输出的正确性，或者使用另一个LLM作为评估者（LLM-based Evaluation）。

算法分类：图示中还对偏好学习的算法进行了分类，包括点式（Point-wise）、成对（Pair-wise）、列表式（List-wise）方法，以及无需训练的对齐方法（Training-Free Alignment）。

2、大模型（LLM）偏好学习分类框架

Figure 2 提供了大型语言模型（LLM）偏好学习的一个分类框架，展示了不同组件和方法如何组合在一起。

偏好学习分类：这张图将偏好学习策略分为四个主要部分：偏好数据（Preference Data）、反馈（Feedback）、算法（Algorithms）和评估（Evaluation）。

在线策略（On-policy）：直接从模型（πθ）采样，获取数据。
离线策略（Off-policy）：使用人类或其他模型生成的数据，这些数据不是由当前模型实时生成的。

偏好数据（Preference Data）：

直接反馈（Direct Feedback）：直接从人类评估者或其他系统获得的反馈。
基于模型的反馈（Model-based Feedback）：包括奖励模型（Reward Model）、成对评分模型（Pair-wise Scoring Model）和LLM作为评判者（LLM-as-a-Judge）。

反馈（Feedback）：

点式方法（Point-wise Method）：如 RFT、RAFT、Star、PPO 等，这些方法基于单个数据点进行优化。
成对对比（Pair-wise Contrast）：如 DPO、IPO、Sr-DPO 等，这些方法通过比较成对的样本来优化模型。
列表式对比（List-wise Contrast）：如 RRHF、PRO、CycleAlign 等，这些方法考虑整个数据列表来优化模型。
无需训练的对齐（Training-Free Alignment）：如输入优化（Input Optimization）和输出优化（Output Optimization），这些方法在不直接训练模型的情况下对齐模型输出。