我要投稿

TableLLM：性能超GPT4的表格13B大语言模型

发布日期：2024-04-22 08:18:42 浏览次数： 3054

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

TableLLM：性能超GPT4的表格13B大语言模型

发布时间：2024 年 03 月 28 日

LLM应用 办公自动化 数据处理

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios

摘要

我们推出了 TableLLM，这是一款具备 130 亿参数的高效大型语言模型，专为处理表格数据任务而生，无论是在文档还是电子表格中，都能适应各种实际办公需求。我们采用了一种创新的远程监督训练法，结合推理扩展策略，让模型能更好地把握推理模式，并通过交叉验证确保数据生成的质量。为检验 TableLLM 的表现，我们量身打造了一套覆盖文档和电子表格的评估基准，并建立了一套高效的评估流程。经过严格评估，TableLLM 在处理表格数据方面，相较于其他通用及表格数据专用的模型，展现出显著优势。目前，模型检查点、源代码、评估基准和交互式 Web 应用已向公众开放。

表格相关的任务介绍

null

上图是与表格相关的一些任务的统计情况：(a) 表格相关任务（如表格问答、表格修订、图表制作、表格匹配、重复数据删除等）；(b) 表格格式（如Excel、Word等）；(c) 表格长度（小型：小于50行，大型：50行及以上）。

与传统的的表格任务相比，现实世界中办公使用表格数据面临两个主要挑战：

• 多样化操作：用户偏好的任务涉及广泛的操作，包括查询、更新、合并和图表制作，这些操作超出了表格问答中的查询操作。
• 不同格式的独特处理方法：Word/PDF文档通常包含与表格信息一起的上下文文本数据，允许进行混合查询。另一方面，Excel/CSV电子表格包含规则和长的表格，使得可以进行更复杂的操作，如更新和合并。

虽然现有的工作要么专注于利用LLMs直接从其内部参数中推导答案的能力，特别适合于嵌入文档的表格数据，要么专门于编写和执行代码以从电子表格数据中获取答案，但它们各自都有局限性。前者在处理长表格和电子表格中的多样化操作方面存在困难，而后者未能处理涉及文本和表格数据的混合查询。总之，现有的工作尚未能有效同时解决两种类型的表格数据，满足现实世界办公使用的要求。

作者提出了TableLLM，是一个专门设计用来处理在电子表格和文档使用场景中遇到的各种表格操作的模型，这些操作在真实的办公使用场景中被称为表格数据操作。

为了便于模型训练，引入了一种远程监督方法，该方法补充了现有基准测试的推理过程，帮助LLMs更有效地理解推理模式。此外，我们通过交叉验证策略验证自动生成的问题和答案，确保数据质量。

还提供了与单一答案采样和同向验证相比，交叉验证有效性的理论分析。利用这种远程监督训练数据，我们对CodeLlama (13B)（进行了微调，从而开发出了TableLLM。这个模型通过内部参数驱动的方法巧妙地处理嵌入在文档中的表格数据，并通过代码驱动的方法处理嵌入在电子表格中的表格数据。

null

框架

null

上图展示了 TableLLM 的整体架构：

• 构建远程监督学习训练数据。远程监督训练数据包括整合现有的基准训练数据以及从可用的表格数据生成的新问题和答案。为了加强LLMs的训练，扩展基准数据内的推理过程。包括针对文档嵌入的表格数据的基于文本的推理，以及针对电子表格嵌入的表格数据的基于代码的推理。此外，为了确保自动生成的训练数据的质量，我们引入了交叉验证策略。该策略利用多种解决方案进行交叉验证，确保数据的可靠性和准确性；
• 模型训练。模型的训练针对文档嵌入的和电子表格嵌入的表格数据使用不同的提示。

性能

null

上表展示了两种场景下的的效果评估结果。表中的“_”表示该方法不支持该数据集或者测试的准确度过低。

结果显示，TableLLM在电子表格嵌入场景中普遍超越其他方法，在文档嵌入场景中与GPT-3.5持平。详细发现包括：

(1) 由于模型规模较小，TaPEX和TaPas的表现有限。这两个分别使用BART和BERT的预训练和微调模型，只有在使用各自训练版本时，在WikiSQL和WikiTQ基准测试中表现出相对较强的性能。

(2) StructGPT、Binder和DATER在不同数据集上的表现各异，表明了基于提示的LLMs在泛化能力上的局限性。这些模型为表格数据QA任务生成提示，在WikiTQ基准测试中一直表现良好，但在其他数据集上的性能有所减弱。StructGPT因其为Spider数据集定制的提示而在该基准测试中脱颖而出。

(3) DeepSeek (33B) 在电子表格嵌入的表格数据场景中表现出色。这种卓越的性能归功于DeepSeek对编码能力的广泛优化，使其能够熟练地生成处理电子表格嵌入表格数据的代码。然而，这种在编码能力上的专业化是以牺牲其他能力为代价的，例如直接从内部参数推断答案。

(4) TableLLM在电子表格嵌入场景中超越了GPT-3.5和GPT-4。此外，在我们创建的与训练数据完全不同的表格数据和问题的基准测试中，TableLLM达到了令人印象深刻的80.83%的准确率，展示了强大的泛化能力。相反，在文档嵌入场景中，TableLLM与GPT-3.5持平，但略逊于GPT-4，可能是因为该场景需要广泛的常识推理来处理文本数据，在这方面TableLLM可能受益于增强的文本QA训练。值得注意的是，OTT-QA具有与训练数据完全不同的表格数据和问题，其中TableLLM (7B)的准确率超过GPT-3.5 2.31%，进一步证明了其泛化能力。