我要投稿

哪个大语言模型理解表格信息最厉害？？？

发布日期：2024-06-13 21:27:38 浏览次数： 3088

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

哪个大语言模型理解表格信息最厉害？？？

发布时间：2024 年 06 月 06 日

图表问答

Uncovering Limitations of Large Language Models in Information Seeking from Tables
表格因其信息密度高且应用广泛，成为不可或缺的信息源。大型语言模型（LLMs）从表格中提取信息（TIS）的能力至关重要，支撑着基于知识的问答系统。但目前该领域评估不足，缺乏可靠性。为此，本文推出了一个更为可靠的表格信息检索（TabIS）基准，采用单选题形式（每题两选项），避免了基于文本相似度的评估不准确性。我们构建了一套高效的选项生成机制，确保题目难度与质量。实验涵盖 12 种 LLMs，结果显示，尽管 GPT-4-turbo 表现尚可，其他模型则不尽人意。深入分析发现，LLMs 在理解表格结构上存在短板，且在 TIS 性能与抵御伪相关表格（检索增强系统中常见）的鲁棒性之间难以取舍。这些发现揭示了 LLMs 在表格信息检索方面的局限与挑战。我们已公开数据与代码，以期推动该领域的深入研究。
https://arxiv.org/abs/2406.04113

1. 表格信息检索为什么重要？

表格遍布于网络和各类文档，成为信息的宝库。数据显示，网页上的表格数量已飙升至数亿，而在企业界，类似Excel的电子表格中的表格数量更是超过了1.15亿。精准地从表格中提取信息对于金融分析、科学研究等众多实际应用至关重要。

近期，大型语言模型（LLMs）的飞速发展已经革新了信息检索的方式，从检索特定文本转变为直接提供答案。尽管如此，LLMs在表格信息检索（Table Information Seeking，TIS）方面的效果评估研究还不够深入。

已有研究尝试评估LLMs在TIS方面的表现，但现有评估指标的可靠性问题亟待解决。先前研究主要通过表格到文本的转换（Table-to-Text generation，TTG）来测试LLMs的TIS能力，TTG旨在将复杂的表格数据转化为易于理解的描述，以满足用户的信息需求。

为了提供更可靠的评估，作者提出了一个新的表格信息检索基准TabIS。在构建这一基准时，如何生成高质量的错误选项是一个难题。作者设计了三种基于提示的方法：修改输入、修改输出和考试判断，以产生具有欺骗性的错误选项。这些方法共同确保了生成数据的准确率超过92%。

TabIS涵盖了三个难度递增的实用场景：基础TIS（Basic-TIS，B-TIS）、强调结构理解的TIS（Structural Understanding TIS，SU-TIS），以及面对多个表格的TIS（Multiple tables，M-TIS）。这些场景反映了聊天机器人和增强检索系统等实际应用中的常见场景。

2. 测评方法

所有的表格都以Markdown格式呈现，以LLM需要基于上下文表格来回答问题，所有问题都以单选题形式存在。同时评估了闭源模型和开源模型。为了增加结果的可复现性，作者将测评模型的温度参数设置为0。

闭源模型选择了三个代表性模型：GPT-3.5、GPT-4和Gemini-Pro。

考虑到闭源模型成本高昂、且存在隐私问题，所以作者还评估了几款流行的开源模型，包括从7亿到70亿不等的Llama2-chat；经过指令调整的Mistral-7b-instruct-v0.2和Mixtral-8x7b-instruct；从Llama2-7b指令调整而来的TableLlama-7b，它是首个针对表格的大型通用模型；以及从Llama2-70b微调而来的Tulu2-70b-DPO，这是首个与DPO对齐的70亿参数模型。这些模型代表了社区可用的、具有不同架构和对齐策略的最高质量LLMs。

3. 测评结果

null

上表展示了各个模型在TableIS测试数据集上的结果。

总体而言，无论是闭源模型还是开源模型，在TableIS数据集上表现都不尽如人意。但总体上，闭源模型效果要超越开源模型：GPT-4-turbo以85.9%的高平均准确率领先，而Tulu2-70b-DPO则为74.1%。尽管Gemini-pro在性能上超越了GPT-3.5，但仍未能达到GPT-4-turbo的水平。

在开源模型中，同一系列中参数较大的模型往往表现更佳，如Llama2-chat系列中，7b、13b和70b参数的模型分别达到了50.7%、56.7%和61.9%的平均准确率。然而，这一规律并不适用于不同系列的模型，模型规模的增大并不总能转化为性能上的提升，Mistral-instruct的7b版本就在得分上超越了70b的Llama2-chat模型1.3个百分点。这一现象引发了关于预训练和对齐策略对LLMs在表格信息检索任务上能力影响的思考，这或许能成为未来研究的一个有趣方向。

在TabIS的各个子集上，上表中间的列显示所有模型在基础表格信息检索（B-TIS）上的表现普遍优于结构理解型检索（SU-TIS）和多表格检索（M-TIS），这表明后两者的任务难度更大。

SU-TIS仅以突出单元格的位置作为线索，难度自然高于B-TIS。但模型可以通过选项中的单元格信息回溯表格，从而对每个选项进行核实，这使得性能下降并不剧烈。

而M-TIS则引入了一个看似相关实则无关的额外表格，这可能会对LLMs的判断造成干扰。在不同数据集间的对比中，所有模型在ToTTo的表现均优于Hita，提升幅度从5.8到19.0点不等。这一差异可能源于ToTTo主要包含标准表格且没有合并单元格，而Hita则包含了具有复杂层级的表格，这对表格的理解构成了更大的挑战。

4 为什么表格信息检索难？

4.1 表格结构理解深化研究

我们进一步剖析了LLMs在表格结构理解（Table Structure Understanding，TSU）方面的能力，为SU-TIS子任务的后续研究照亮了方向。

TSU是指识别表格内固有的二维布局——比如单元格、行和列的相对位置——并根据这些位置信息获取目标内容的能力。在SU-TIS任务中，TSU尤为关键，因为它涉及到在表格中定位特定区域。对人类而言，这似乎是自然而然的事情，但对LLMs来说却是个不小的挑战，特别是当表格以序列化格式如markdown或HTML输入模型时。

为了探究LLMs在TSU方面的能力，设计了六项基础查找任务，例如“第三行第三列的单元格是什么内容？”或者“与‘哈利·波特’同一行的单元格内容是什么？”。

一旦人类掌握了表格结构和任务要求，无论目标位置在哪里，他们的TSU表现理论上都会保持优异和一致。然而，LLMs的表现却与人类非常不同。

null

如上图，展示了六项任务的平均准确率和目标位置变化得分。TSU任务的变化得分是指不同目标位置准确率的标准差。值得注意的是，大多数LLMs在TSU任务上的表现接近随机水平。即便是最强的LLM：GPT-4-turbo 稳定性也不高。

LLMs在TSU任务上表现不佳，且准确率在不同位置间波动巨大。在现实世界中的SU-TIS场景里，用户查询没有备选项。LLMs必须依靠位置信息（如第三行）来定位目标区域，其信息检索表现很大程度上取决于模型的TSU能力。

这一发现突显了表格结构理解的一个普遍挑战：我们还将发布这六项TSU数据集，以助于推动未来研究的发展。

4.2 对伪相关表格的鲁棒性探究

null

在多表格信息检索（M-TIS）的基础上，深入探讨了各类模型面对伪相关表格时的信息检索鲁棒性。为了衡量模型的鲁棒性，通过计算模型在有无伪相关表格条件下准确度的偏差，进而得出平均值，这一过程基于ToTTo和Hita数据集进行。上图展示了相关结果。显著的是，GPT-3.5-instruct和GPT-4-turbo两款模型不仅效果显著，也显示出良好的鲁棒性。然而，两款最强的开源模型——Tulu-70b和Mixtral-7b8——却显示出了最低的鲁棒性。此外，同一模型系列中，规模较大的模型虽然在准确度上得分较高，但在鲁棒性方面表现较差，这一趋势在Llama2系列（7b、13b、70b）和Mistral系列（Mistral-7b、Mixtral-87b）中均有体现。M-TIS的研究表明，大型语言模型（LLMs）在提升信息检索性能与增强对抗伪相关表格的鲁棒性之间需要找到平衡，这一点对于开源模型尤为关键。

本研究的发现指向了未来研究的方向：必须对开源模型进行改进，以增强其在面对伪相关表格时的信息检索鲁棒性。

4.3 难题样本的深入剖析

为了探讨LLMs在TabIS上表现不好的原因，对其中的一些难题进行了深入分析。精心挑选了其中50个样本，邀请专家对这些难题进行剖析。将主要的难点归纳为四大类，具体分类展示在下表中。分析结果显示，现有LLMs在辨识细节上仍有失误，面对那些看似明确却暗藏错误的选项时更易误判（R1, R3）。同时，进行表格信息检索时往往涉及到数值推理（R2）和依赖常识判断（R4），这些恰是当前LLMs尚待提升的能力领域。

null

5. 局限性

• 基准测试以单项选择题的形式呈现，确保了评估结果的稳定性，但这可能与现实应用场景不完全吻合。
• TabIS 设计的选项仅有两个，这样的设置对于挑战大型语言模型（LLMs）来说可能稍显不足，尤其是在 GPT-4 已经展现出较高准确度的情况下。生成 TIS 问题时所用的模板较为单一；如果问题更加丰富多元，将更有助于提升基准测试的水准。
• 利用 GPT-4 调整提示并创造出伪相关表格，这可能带来某种偏差，对 GPT 系列模型可能因其对数据集构建的熟悉度而更为有利。
• 表格来源于维基百科，人们可能会担心数据的纯净性问题；即便没有表格提供的上下文信息，LLMs 可能依然能够表现出色。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业