AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【文档智能&大模型】表格提取工具包PdfTable及大模型偏好学习综述
发布日期:2024-09-11 19:48:23 浏览次数: 1586


今天是2024年9月11日,星期三,北京,天气阴

我们来看两个工作,一个是PdfTable工具包:深度学习在表格提取中的统一应用,另一个是大模型偏好学习综述。

这两个方案都很有趣,对于理解一些技术细节,供大家一起参考并思考。

一、PdfTable工具包用于表格提取

《PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction 》(https://arxiv.org/pdf/2409.05125,代码:https://github.com/CycloneBoy/pdf_table,注注意,代码仓库还是空的)介绍了一个名为PdfTable的统一工具包,用于从PDF文件和图像中提取表格信息。

该工具包集成了多个开源模型,能够适应不同的应用场景,如处理有线表格、无线表格、数字PDF和图像PDF等。

1、 PdfTable库的设计和实现

PdfTable 由四个主要模块组成,包括布局分析、表格结构识别、文本检测与识别以及应用模块。

处理流程包括输入预处理、布局分析、表格结构识别、文本提取和应用。

2、表格解析流水线(PdfTable Parse Pipeline)

  1. 输入预处理(Input Preprocessing)

  • 输入可以是 PDF 文件或图像文件。
  • 如果是 PDF 文件,需要下载并转换为图像格式。数字 PDF 使用 Ghostscript 转换,图像 PDF 则直接提取。
  • 校正图像方向,确保文档方向为0度,以便后续处理。
  • 布局分析(Layout Analysis)

    • 将图像分割成不同的区域,如文本、表格和图片。
    • 使用对象检测模型来识别和分类图像中的不同元素。如 PP-PicoDet、DocxLayout 和 LayoutParser,将图像分割成不同的区域。
  • 表格结构识别(Table Structure Recognition)

    • 根据布局分析的结果,识别出表格区域。
    • 表格区域进一步区分为有线表格和无线表格。
    • 有线表格:使用算法直接识别表格边框,然后恢复表格结构。使用 LineCell 算法或深度学习算法如 CycleCenterNet 和 LORE 识别表格边框。
    • 无线表格:使用图像到序列生成技术,直接生成标记和文本边框来表示表格结构。使用图像到序列生成技术,如 SLANet、LGPMA、TableMaster 和 MTL-TabNet。
  • 文本检测与识别(Text Detection and Recognition)

    • 对于数字 PDF,直接从 PDF 提取文本坐标和内容。如使用 pdfminer.six 直接提取文本。
    • 对于扫描的 PDF 或图像,使用 OCR 工具提取文本。如使用 OCR 工具如 PaddleOCR、EasyOCR、TesseractOCR 和 duguangOCR 提取文本。
  • 表格内容提取(Table Content Extraction)

    • 将表格区域中的文本与表格结构匹配,生成表格的 HTML 表示。
    • 其他文本通过段落合并模块(Paragraph Merging Module)合并成段落。
  • 应用(Application)

    • 将识别的表格、文本段落和图片统一表示为 PdfCell 结构,并输出为不同的文件格式,如 HTML、DOCX 或 Excel。

    二、大模型偏好学习综述

    关于大模型偏好学习综述,《Towards a Unified View of Preference Learning for Large Language Models: A Survey》:https://arxiv.org/html/2409.02795v3,提供了对大型语言模型(LLM)偏好学习领域的全面概述,该供工作提出了一个统一的框架,将偏好学习策略分解为四个组成部分:模型、数据、反馈和算法。这个框架有助于深入理解现有的对齐算法,并揭示了不同策略之间的联系。

    其中,在数据方面,讨论了如何收集偏好数据,包括在线(on-policy)和离线(off-policy)数据收集方法,以及这些数据如何从人类或LLM生成。

    在算法方面,介绍了多种算法,包括点式(point-wise)、成对(pair-wise)、列表式(list-wise)方法,以及无需训练的对齐方法。这些算法通过不同的方式利用数据和反馈来优化LLM。

    在评估方面,讨论了如何评估LLM的偏好学习,包括基于规则的评估和基于LLM的评估方法,以及这些方法的局限性。

    可以重点看看一下几个图:

    1、大模型偏好学习的组成

    Figure 1 提供了一个关于大型语言模型(LLM)偏好学习统一视角的图示性说明。


    1. 偏好学习的目标:图的中心是将一个现有的 LLM(πθ)通过偏好学习的过程,转化为一个与人类偏好更加一致的模型(πθ')。

    1. 数据(Data):偏好学习过程开始于数据的收集。这些数据通常包括输入(input)和对应的输出(response),这些输出是模型基于输入生成的。

    1. 反馈(Feedback):基于模型的输出,会得到环境(例如人类评估者或另一个模型)提供的反馈。这个反馈可以是直接的奖励信号,也可以是基于规则或模型的评分。

    1. 偏好优化(Preference Optimization):利用收集到的数据和反馈,通过特定的算法对模型进行优化。这个过程可能涉及到训练新的模型参数,或者在模型生成的输出上应用某种优化技术。

    1. 评估(Evaluation):优化后的模型需要通过评估来确定其性能。评估可以通过规则基(Rule-based)的方法,例如检查模型输出的正确性,或者使用另一个LLM作为评估者(LLM-based Evaluation)。
    1. 算法分类:图示中还对偏好学习的算法进行了分类,包括点式(Point-wise)、成对(Pair-wise)、列表式(List-wise)方法,以及无需训练的对齐方法(Training-Free Alignment)。

    2、大模型(LLM)偏好学习分类框架

    Figure 2 提供了大型语言模型(LLM)偏好学习的一个分类框架,展示了不同组件和方法如何组合在一起。


    1. 偏好学习分类:这张图将偏好学习策略分为四个主要部分:偏好数据(Preference Data)、反馈(Feedback)、算法(Algorithms)和评估(Evaluation)。

    • 在线策略(On-policy):直接从模型(πθ)采样,获取数据。
    • 离线策略(Off-policy):使用人类或其他模型生成的数据,这些数据不是由当前模型实时生成的。
    1. 偏好数据(Preference Data)

    • 直接反馈(Direct Feedback):直接从人类评估者或其他系统获得的反馈。
    • 基于模型的反馈(Model-based Feedback):包括奖励模型(Reward Model)、成对评分模型(Pair-wise Scoring Model)和LLM作为评判者(LLM-as-a-Judge)。
    1. 反馈(Feedback)

    • 点式方法(Point-wise Method):如 RFT、RAFT、Star、PPO 等,这些方法基于单个数据点进行优化。
    • 成对对比(Pair-wise Contrast):如 DPO、IPO、Sr-DPO 等,这些方法通过比较成对的样本来优化模型。
    • 列表式对比(List-wise Contrast):如 RRHF、PRO、CycleAlign 等,这些方法考虑整个数据列表来优化模型。
    • 无需训练的对齐(Training-Free Alignment):如输入优化(Input Optimization)和输出优化(Output Optimization),这些方法在不直接训练模型的情况下对齐模型输出。
    1. 算法(Algorithms)

    • 基于规则的评估(Rule-based Evaluation):使用预定义的规则或标准来评估模型输出。
    • 基于LLM的评估(LLM-based Evaluation):使用另一个LLM来评估模型输出的质量。
    1. 评估(Evaluation)

    3、偏好学习的示例

    4、点式损失的偏好学习策略示例

    5、偏好学习概览

    要使大型语言模型(LLM)πθ与人类偏好对齐,首先需要准备偏好数据。与人类偏好对齐的环境会向偏好数据提供反馈。需要注意的是,这些反馈可以是人类标注的标签或偏好,或者是奖励模型输出的标量值。通过将模型、数据和反馈输入到特定算法中,我们获得了一个与人类偏好对齐的LLM πθ'。

    6、偏好学习中模型获得的奖励说明

    对于一个数据样本 (?, ?ˆ),其中 ?ˆ 是未标记的候选输出,奖励函数应该提供反馈,这可以是奖励分数 ? 或偏好标签。根据是否需要训练特定的奖励模型,奖励函数可以分为直接反馈和基于模型的反馈。


    53AI,企业落地应用大模型首选服务商

    产品:大模型应用平台+智能体定制开发+落地咨询服务

    承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    与创始人交个朋友

    回到顶部

     
    扫码咨询