我要投稿

论文：大模型表格推理（综述）

发布日期：2024-07-23 07:34:48 浏览次数： 3291

结论：
1、表格推理技术可以有五种监督微调、结果集成、上下文学习、指令设计、逐步推理；
2、与逐步推理和结果集成相比，研究指令设计和上下文学习在表格推理任务中更有前景；因为逐步推理和结果集成的工作占比较少，因为这些类型的工作可以容易地应用到不同的任务中，较少的研究者仅专注于使用结果集成技术进行表格推理任务；
3、表格推理未来的研究方向包括多模态加强图像表格和问题之间的对齐、与更多样和合适的表格智能体合作、在多轮对话交互中回溯子表格；

摘要

表格推理旨在根据用户提供的表格，以及可选的表格文本描述，生成与问题相对应的答案，有效提高获取信息的效率。最近，使用大型语言模型（LLMs）已成为表格推理的主流方法，因为它不仅显著降低了注释成本，而且超越了以前方法的性能。然而，现有的研究仍然缺乏对基于LLM的表格推理工作的总结。由于研究的不足，关于哪些技术可以在LLM时代提高表格推理性能，为什么LLMs在表格推理上表现出色，以及如何在未来增强表格推理能力的问题，仍然在很大程度上未被探索。这一差距显著限制了研究的进展。为了回答上述问题并推进LLMs在表格推理研究中的进展，我们通过这项调查来分析现有研究，启发未来的工作。在本文中，我们分析了在LLM时代提高表格推理性能的主流技术，并比较了LLMs与前LLMs在解决表格推理方面的优势。我们从改进现有方法和扩展实际应用两个方面提供了研究方向，以启发未来的研究。

1 引言

（图1:各种表格推理任务的说明）

表格推理任务在从大量表格中获取和处理数据的效率方面发挥着重要作用，在自然语言处理（NLP）研究中占有重要地位[Jin等人，2022]。表格推理任务的示意图见图1。给定一个或多个表格，这项任务要求模型生成与给定问题相对应的结果，满足用户的要求（例如，表格问答[Pasupat和Liang，2015]，表格事实验证[Chen等人，2020]）。过去，表格推理研究经历了几个阶段：基于规则的、基于神经网络的和基于预训练语言模型的[Jin等人，2022]，我们称之为前LLM时代。最近的研究[Zhao等人，2023b]表明，大型语言模型（LLMs）在NLP任务中表现出引人注目的性能，特别是显著降低了注释需求，我们称之为LLM时代。因此，大量工作集中在将LLMs应用于表格推理任务，以减少开销并超越前LLM时代的方法，这已成为当前的主流方法。

然而，目前对LLMs的表格推理工作的总结分析仍然缺乏，导致如何提高性能仍在探索之中，这在一定程度上限制了现有研究。此外，前LLMs的表格推理调查不适用于LLMs。由于前LLM时代的一些主流技术，如改变模型结构和设计预训练任务[Jin等人，2022]，在表格推理中不适用于LLM，而LLM方法更注重设计提示或流程[Zhao等人，2023b]。因此，本文总结了现有的LLMs在表格推理上的工作，以照亮未来的研究。具体而言，我们关注表格推理的三个问题：

1. 哪些技术可以在LLM时代提高表格推理性能；

2. 为什么LLMs在表格推理上表现出色；

3. 如何在未来增强表格推理能力。

（图2:我们论文的结构概述，以最具代表性的作品为例。）

这项调查的结构见图2。关于第一个主题，为了更好地适应LLM时代的表格推理研究，我们在§3中介绍了LLM时代表格推理的主流技术和详细方法。具体来说，我们根据它们使用的不同的技术对现有工作进行分类，并分别详细说明。考虑到第二个主题，我们在§4中探讨了为什么LLMs在表格推理任务上表现出色。我们比较了不同基准上前LLM和LLM的最佳性能，并证明了LLMs在表格推理任务上始终超越前LLMs。然后，我们基于任务的两个固有挑战，讨论了LLMs在解决表格推理任务方面的优势。关于第三个主题，我们在§5中讨论了表格推理的潜在未来方向。为了推动表格推理研究并更好地将表格推理应用于现实生活场景，我们分别分析了如何进一步提高表格推理性能，以及如何探索将表格推理适应到实际应用中。

2 背景

2.1 论文选择标准

为确保所选论文与本调查高度相关，论文应满足以下标准：1. 论文旨在解决的任务中的每个问题必须与至少一个表格相关。2. 论文提出的方法需要使用或微调LLMs进行推理。

2.2 任务定义

作为后续分析的基础，在本节中，我们提出了表格推理任务的定义。在表格推理任务中，输入包括表格、可选的文本描述以及针对不同任务（例如，表格问答、表格事实验证、表格到文本、文本到SQL）的用户需求定制的问题，输出是答案。

2.3 基准测试

为帮助研究人员详细了解表格推理在现有应用场景中的情况，我们介绍了四个主流的表格推理任务，超过90%的选定论文都适应这些任务，包括文本生成、蕴含、语义解析。图1展示了这四个任务的示例。尽管大多数使用LLMs解决表格推理任务的工作不需要微调数据，但它们仍然需要依赖标记数据来验证性能。因此，在本小节中，我们还为每个任务提供了一个最常用的验证基准作为示例，并在 https://github.com/zhxlia/Awesome-TableReasoning-LLM-Survey 上汇总了相关资源：

表格问答（Table QA）：表格问答任务是根据表格回答一个问题[Pasupat和Liang，2015]。WikiTableQuestions[Pasupat和Liang，2015]作为表格问答任务的初始基准，它具有伴随复杂问题的开放领域表格。
表格事实验证（Table Fact Verification）：表格事实验证任务旨在根据证据表格验证文本假设是否被蕴含或反驳[Chen等人，2020]。

TabFact[Chen等人，2020]作为表格事实验证任务的第一个基准，具有大规模跨领域表格数据和复杂的推理要求。

表格到文本（Table-to-Text）：表格到文本任务是根据给定问题和表格生成相应的自然语言描述[Nan等人，2022]。与只生成几个跨度的表格问答任务不同，表格到文本要求答案是一个段落。FeTaQA[Nan等人，2022]要求模型对问题生成自由形式的答案，拥有大规模和高质量的数据。
文本到SQL（Text-to-SQL）：文本到SQL旨在将数据库下的文本问题转换为可执行的结构化查询语言（SQL）。Spider[Yu等人，2018]是文本到SQL任务上的第一个多领域、多表格基准。

3 在LLM时代提高表格推理性能的技术

前LLM时代和LLM时代的模型能力存在显著差异，导致主流技术的变革[Zhao等人，2023b]。为帮助研究更好地从前LLM时代过渡到LLM时代，在本节中，我们从两个方面讨论了LLM时代的主流技术：1. 遵循前LLM时代的技术（§3.1）和2. 仅属于LLM时代的技术（§3.2）。我们根据它们使用的技术将表格推理方法分为五类，如图3所示。然后，我们介绍了这些方法，并强调了技术的变化，旨在理解如何在LLM时代利用主流技术。

3.1 遵循前LLMs的主流技术

尽管LLMs给研究带来了巨大变化，但许多前LLM时代的技术仍然可以应用于LLM。因此，在本小节中，我们介绍了遵循前LLM时代的主流技术。

监督式微调

监督式微调指的是使用标注数据对LLM进行微调，以增强表格推理能力。由于一些开源的小规模LLMs在解决表格任务上较弱[Zhang等人，2023b]，并且微调成本相对较低，研究人员利用监督式微调技术来提升其性能。

现有关于LLM表格推理的监督式微调工作包括两种类型：1. 利用现有的或手动标注的数据，2. 利用LLMs生成的蒸馏数据。关注现有的或手动标注的数据，为了更好地完成表格推理任务，TableGPT[Zha等人，2023]通过构建指令数据集来微调LLM。考虑到之前工作的泛化能力不足，TableLlama[Zhang等人，2023b]通过选择代表性的表格任务数据集来构建训练数据。注意到注释SQL数据过于困难，APEL[Zhong等人，2023]提出了一种注释SQL的方法，根据模式生成数据库，并根据执行结果判断SQL的正确性。

关注蒸馏数据，[Yang等人，2023]观察到开源模型在表格到文本任务上的性能落后于LLM，因此，这项工作利用LLM作为教师模型来蒸馏理由和表格描述，并用蒸馏数据微调开源模型。此外，HELLaMA[Bian等人，2023]关注到一些模型无法根据输入定位证据，因此它使用其他LLM获取训练数据来预测标记描述将被定位的地方，然后微调模型。

基于现有或手动标注的数据和蒸馏数据体现了在LLM时代获取训练数据的两种思路。现有数据集通常质量较高，但在特定领域和任务中更为有限；而蒸馏数据的限制较少，但面临数据质量低下的问题。因此，如何通过尽可能少的手动干预显著提高模型蒸馏的数据质量，是亟待研究的紧迫问题。

强调在前LLM时代，由于模型能力的限制，监督式微调方法不能在未见任务上带来泛化[Xie等人，2022]。相比之下，在LLM时代，研究人员设计了基于指令和多任务的数据来微调模型，以增强表格推理能力，使其泛化到不同任务，甚至是训练阶段未见的任务。

结果集成

结果集成指的是通过从LLM生成的多个结果中选择最合适的答案来提高表格推理能力。由于前LLM时代和LLM时代的模型在面对轻微干扰（例如，随机数种子、问题中的无意义词）时可能较难保持正确结果，导致模型性能下降[Ni等人，2023]，研究人员利用了前LLM时代的结果集成技术。

LLM时代的结果集成方法主要关注两个问题：1. 如何为一个问题获得多样化的结果，2. 如何在多个结果中选择正确的结果。考虑到获得多样化结果的工作，SQLPrompt[Sun等人，2023]注意到固定提示和模型导致结果的多样性较低，结果可能集中在特定的错误答案上，因此提出使用多个提示和模型生成结果。

关于选择正确结果的工作，Lever[Ni等人，2023]专门训练了一个验证器来对每个生成的答案进行评分，并选择得分最高的结果作为答案。为了从多个候选SQL查询中选择正确的一个，[Li和Xie，2024]提出通过生成新数据库并使用LLM预测执行结果来构建测试用例，以便测试用例能够区分所有具有不同执行结果的SQL。

解决这两个问题的方法可以独立地提高集成性能。因此，可以同时关注这两个问题，以进一步提高LLM的表格推理性能。

强调与前LLM方法相比，LLMs可以以更多、更简单的方式生成更多样化的结果。例如，LLMs只需改变指令而不需要改变问题，就可以获得多样化的结果，而前LLM方法必须确保微调和推理的指令对齐[Gan等人，2021]。

3.2 仅属于LLMs的主流技术

在LLM时代，除了遵循前LLM时代的主流技术外，由于涌现现象[Zhao等人，2023b]，还有仅属于LLM的技术。

我们介绍了之前研究中提到的三种典型的涌现能力[Zhao等人，2023b]。

上下文学习

上下文学习指的是通过使用更合适的自然语言指令和多个示例（即提示）使模型生成预期答案，而不需要额外的训练或梯度更新[Zhao等人，2023b]。由于LLM的性能受到提示的显著影响，研究人员利用上下文学习技术通过设计提示直接解决表格推理任务。

（图3:在LLM时代，可以用来提高表推理性能的主流技术。）

关于利用上下文学习能力在表格推理任务中的工作，[Chen, 2023]是首次探索并证明LLM可以通过上下文学习理解表格。ODIS [Chang和Fosler-Lussier, 2023]观察到领域内示例可以提高模型性能，因此它根据SQL相似性合成领域内SQL。为了解决示例选择的挑战，DAIL-SQL [Gao等人，2023]和[Nan等人，2023b]分别基于掩蔽问题相似性和SQL相似性选择示例。为了更好地解析复杂表格，[Zhao等人，2023a]提出将表格单元解码为包含丰富信息的元组输入。TAP4LLM [Sui等人，2023]注意到表格可能包含噪声和模糊信息，因此它分解表格，然后增强子表格。AutoCoT [Zhang等人，2023a]发现现有的理由注释方法消耗大量资源，因此使用基于模式链接的规则方法生成理由。

强调：由于前LLM时代的模型只能通过微调学习固定类型的提示，很难灵活调整提示以提高模型的推理性能[Xie等人，2022]。由于上下文学习能力，LLMs可以使用适合不同问题的多种提示，而无需进一步微调，这在提高性能的同时大大减少了标记开销。

指令设计

指令设计指的是利用LLMs通过设计指令描述来解决训练阶段未见的任务，这是由于LLMs的指令遵循能力[Zhao等人，2023b]。在表格推理任务中，研究人员利用指令设计技术通过指导LLM完成多个分解的子任务来间接解决任务，这些子任务可能是新颖的，需要模型通过指令学习。现有使用LLMs在表格推理上的指令设计工作集中在两种方法上：1.基于模块化分解的，2.基于工具使用的。

研究人员发现，完成分解的子任务比完成整个表格推理任务更容易[Pourreza和Rafiei，2023]，LLM可以利用指令遵循技术泛化到不同的子任务，从而通过模块化分解的方法提高LLM在表格推理任务上的性能。DATER [Ye等人，2023]和DIN-SQL [Pourreza和Rafiei，2023]都注意到分解表格推理可以有效促进多步骤推理，因此他们为表格推理任务设计了流程，以降低推理的难度。TableQAKit [Lei等人，2023]发现表格问答任务面临不同的数据和任务形式，阻碍了研究的便利性，因此将表格问答任务分为配置模块、数据模块、模型模块和评估模块。在开放领域设置中，CRUSH4SQL [Kothyari等人，2023]、OpenTab [Anonymous，2023]和DB-GPT [Xue等人，2024]将任务分解为两个不同的阶段，即检索和推理，以缓解由无关信息增加引起的难度问题。DBCopilot [Wang等人，2023b]注意到检索可能受到多样化表达和词汇不匹配的影响，因此任务被分解为首先生成与问题相关的模式，而不是检索，然后进行推理。MAC-SQL [Wang等人，2023a]发现有限的上下文窗口、单次传递生成和缺乏验证导致性能不佳，因此任务被模块化分解为三个模块来解决问题。

面对表格推理的分解子任务，尽管LLM在大多数子任务上保持了可接受的性能，但在解决所有子任务（例如，检索、数值推理）方面并不出色[Cao等人，2023]，因此研究人员指导LLM调用不同的工具来解决一些子任务，这是工具使用的方法。StructGPT [Jiang等人，2023]观察到结构化数据量太大，无法输入到模型中，因此它提供了不同的接口来提取多种类型的数据，模型通过调用适当的接口获得有效数据。[Nan等人，2023a]为了探索和评估LLM的行动和推理能力，提出了长形式数据库问答任务，其中LLM需要通过推理决定交互策略，然后生成交互命令以调用外部模型。为了扩展各种TableQA任务的模型能力，[Cao等人，2023]通过调用其他LLM API查询知识和执行额外的表格操作。此外，一些工作专注于制作工具然后使用它们。Binder [Cheng等人，2023]注意到现有的神经符号工作是模型和语言特定的，需要大量的训练数据，提出利用LLM解析无法转换为目标程序（如SQL）的子问题，然后调用LLM解决子问题。认识到自动将任意表格转换为响应问题的挑战，ReAcTable [Zhang等人，2023c]提出利用LLM生成一系列函数，然后执行这些函数以产生中间表格，最终得到答案。

总结，模块化分解和工具使用的方法可以一起使用。具体来说，在用多个模块解决任务时，每个模块可以通过使用工具来提高性能。例如，关于检索模块，我们可以使用程序过滤出与用户问题无关的行。

强调：由于前LLMs没有指令遵循能力，它们在弱泛化的情况下，研究人员在使用模块化分解方法解决表格推理任务时必须为每个子任务训练单独的模型[Dou等人，2023]。同样，在前LLM时代很难灵活使用或制作各种工具[Zhao等人，2023b]。相比之下，LLM可以在不单独微调每个子任务或工具的情况下实现更优越的性能，节省了训练开销。

逐步推理

逐步推理表示通过使用包含中间推理阶段的提示机制来解决复杂的推理任务，同时指技术和能力[Zhao等人，2023b]。

逐步推理要求LLM将复杂问题分解为多个更简单的子问题，与模块化分解不同，在模块化分解中，研究人员需要将任务分解为截然不同的子任务。MURMUR [Saha等人，2023]注意到提示LLM逐步推理缺乏推理步骤之间的明确条件，提出首先在每个步骤选择可能正确的模型，然后根据评分模型选择最佳模型。Chain-of-Table [Wang等人，2024]为了降低单跳推理的难度，提供了预定义的表格操作，LLM在每个步骤中选择一个操作并执行。

强调：前LLM时代的方法是不具备逐步推理能力的，因此很难通过利用逐步推理来提高解决复杂表格推理的性能。相比之下，LLM可以将推理分解为多个步骤，每个步骤的难度都低于整个问题，从而降低了表格推理的复杂性。

（图4:几个月内使用不同技术的研究趋势。#Paper表示论文的数量。）

3.3 比较

技术比例比较

为了分析现有关于LLMs表格推理研究的趋势，我们静态地统计了根据不同使用技术的研究论文数量，如图4所示。从图中可以发现，与逐步推理和结果集成相比，研究指令设计和上下文学习在表格推理任务中更有前景。这是因为逐步推理和结果集成的工作占比较少，因为这些类型的工作可以容易地应用到不同的任务中，较少的研究者仅专注于使用结果集成技术进行表格推理任务，这在第5节中有详细讨论。

相反，指令设计和上下文学习技术需要为表格推理任务专门设计方法，并且比使用监督微调技术有更低的时间开销，因此指令设计和上下文学习的工作在表格推理研究中最为常见。

技术性能比较

为了分析最有效的技术，从而找到有前景的研究方向，我们静态地统计了LLM方法使用不同主流技术在不同基准测试上取得的最高分数，如表1所示。可以发现，指令设计和逐步推理在不同任务中一致地提高了LLMs的表格推理能力，我们在第4节中有详细讨论。此外，不同任务中性能提升的一致性也表明不同表格推理任务所需的能力具有很高的一致性，需要LLMs的高度泛化。值得注意的是，上下文学习在文本到SQL任务中取得了最佳性能，因为与自然语言相比，SQL具有更简单的语法，用相同数量的示例，文本到SQL任务可以覆盖更多类型的用户问题，比使用上下文学习解决其他表格推理任务更受关注。

（表1：在每种主流技术下不同基准测试中的最佳结果。† 表示WikiTableQuestions。WikiTableQuestions/TabFact/FeTaQA/Spider的评估指标是准确率/准确率/ROUGE-1/执行准确率。）

（表2：在不同基准测试中，LLM之前的模型和LLM方法的最佳性能。† 表示WikiTableQuestions。WikiTableQuestions/TabFact/FeTaQA/Spider的评估指标是准确率/准确率/ROUGE-1/执行准确率。）

4 为什么LLMs在表格推理中表现优秀

LLMs通过第3节中的方法在表格推理中超越了LLM之前的模型（表2）。我们从结构理解和模式链接这两个表格推理的主要挑战中分析了背后的主要见解[Yin等人，2020]。

4.1 指令遵循能力有助于结构理解

结构理解意味着理解表格架构（例如，列、行）及其关系，这为解码提供了关键证据和必要的上下文信息[Yin等人，2020]。与LLM之前的模型相比，LLMs可以更好地解决结构理解的挑战，主要归功于指令遵循能力。例如，指令遵循带来的代码解析能力可以提升表格理解能力，因为两者都需要从平面输入中识别出层次结构（例如，线性化的表格到结构化的表格，上下文化的代码到结构化的代码）[Cao等人，2023]。

4.2 逐步推理能力有助于模式链接

模式链接指的是将问题中提到的实体与表格中的实体对齐[Yin等人，2020]。与LLM之前的模型相比，LLMs在模式链接方面具有更强的能力，主要是因为LLM的逐步推理能力。具体来说，LLMs可以通过将完整的问题和表格分解并过滤不相关的上下文，将链接从句子级别简化到跨度级别[Pourreza和Rafiei，2023]。

5 如何在未来增强表格推理能力

为了推动LLM时代的表格推理研究并将表格推理应用于实际场景，我们在本节中从增强表格推理和扩大实际应用两个方面讨论了未来的研究方向。

5.1 提高表格推理性能

尽管现有的基于LLM的方法与LLM之前的时期相比在性能上有了显著提高，但在彻底解决表格推理任务方面仍存在一定的差距。因此，在这一小节中，我们分析了第3节中每个类别的现有工作在表格推理任务中的不足之处和可能的改进。

监督微调：建立多样化的训练数据

由于LLMs的强泛化能力，研究人员在对LLMs进行监督微调时，应该构建多个表格任务的多样化数据，以提高在表格推理任务上的整体性能。如第3.1节中所讨论的，目前现有的或手动标记的数据方法简单地将不同表格任务的多样化数据混合作为训练数据来微调LLMs。然而，训练数据中不同任务的比例对模型性能有显著影响。未来的工作应该平衡来自多个任务的不同比例的多样化训练数据，以探索优化微调LLMs表格推理能力的最优比例。

除了标记数据，现有的蒸馏数据方法只关注某些特征或特定任务，导致蒸馏数据的多样性不足，模型的表格推理性能不能通过微调蒸馏数据得到全面提高。因此，值得探索如何为不同任务蒸馏多样化的数据，以提高LLM在表格推理任务中的综合能力和泛化。

结果集成：更有效地采样结果

为了在集成后获得正确答案，研究人员应该关注如何在可能的结果空间中有效地采样。获得多个结果的主要目的是扩大采样空间，以便正确答案可以被多次采样。然而，现有的工作没有考虑改变提示中的示例以提高结果的正确性，示例对LLMs表格推理性能的影响是显著的。未来的工作应该改变示例，以采样更可能正确的结果。

当前关于选择正确答案的研究仅依赖最终结果，并没有考虑到随着推理步骤数量的增加，结果数量呈指数增长，并且在指数级大的搜索空间中采样正确答案变得困难。未来的工作应该通过在每一步选择正确的推理路径来缩小搜索空间，然后根据搜索到的路径选择正确答案[Xie等人，2023]。

上下文学习：自动优化提示

由于LLMs的上下文学习性能在很大程度上依赖于提示，研究人员应该专注于如何根据问题自动优化表格推理的提示。单步推理的提示设计研究比较了有限范围内人为标记的指令和示例的候选提示，这也导致性能提升受到限制。为了设计更好的提示，未来的工作应该根据问题和表格自动生成和优化提示。

指令设计：自动细化设计并验证

根据第3.2节的讨论，如何更充分地利用指令遵循能力以降低每个表格推理问题的难度，值得研究人员关注。当前的模块化分解方法需要事先手动将任务分解为不同的模块。然而，这种分解只能适用于某些表格任务。相比之下，适用于所有表格任务的固定分解过于通用，并没有很好地降低推理难度。因此，未来的工作应该根据问题自动分解任务，这种分解适用于所有表格任务，无需人工参与，大大减少了单步推理的难度。

对于工具使用的方法，当前的工作没有注意到调用工具的过程可能会在表格推理过程中引起额外的错误。未来的工作应该包括一个工具验证过程，提示LLMs修订工具，以确保工具可以在表格推理任务中正确应用，从而提高准确性。

逐步推理：减轻多步推理中的错误级联

现有的逐步推理研究没有考虑表格推理中的错误级联问题，导致错误的中间结果导致后续推理的错误。Tree-of-Thought [Yao等人，2023]（ToT）的提示方法通过在多步推理中保持多个可能的中间步骤，缓解了这个问题，因此如何将ToT应用于表格推理任务值得未来的关注。

5.2 扩展应用

在这一小节中，我们分析了真实场景中表格推理任务的要求，并相应地提出了未来可扩展的方向。

多模态：加强图像表格和问题之间的对齐

多模态设置要求模型包括自动化理解、分类和从文本、视觉和其他形式的证据中提取信息。因为实际场景中有许多以图像形式存储的表格，直接的光学字符识别（OCR）将因识别错误而导致信息丢失，所以我们需要结合视觉模型更好地理解和推理图像表格。为了更好地对齐视觉信息和自然语言问题，未来的研究可以探索设计结构，将问题中的实体与图像表格中的标题对齐，从而增强图像和文本之间的语义对齐。

智能体：与更多样和合适的表格智能体合作

智能体指的是一个实体，它具备感知周围环境、参与决策过程，并根据这些决策执行行动的能力[Xi等人，2023]。在真实场景中，当LLM面临复杂的表格推理问题，难以单独解决时，它可以与其他智能体合作，如代码和搜索引擎。因为不同的智能体适合解决不同的任务，并对同一任务带来不同的性能变化，未来的研究可以通过探索更多适合实际场景中不同表格任务的多样化智能体，来加强与智能体的合作[Cao等人，2023]。

对话：在多轮交互中回溯子表格

对话系统旨在通过会话交互与人类进行对话。在与用户交互时，可能会出现模型结果错误和问题模糊等问题，需要多轮对话来纠正错误。然而，在LLM时代，很少有研究人员关注多轮对话的表格推理任务。因此，有必要探索对话中的表格推理。模型需要关注与用户问题相关的子表格，特别是面对大型表格时[Ye等人，2023]。在多轮对话中，与问题相关的子表格不断变化，因此未来的工作应该研究如何回溯分解的子表格以获取全部相关信息，防止上一轮子表格不包含所需的信息[Yao等人，2023]。

检索增强生成：注入与实体相关的知识

检索增强生成（RAG）技术指的是在推理之前从大量文档中检索与推理相关的信息[Gao等人，2024]。由于表格推理任务通常面临知识密集型场景，在应用中LLM的领域知识不足以解决问题，未来的工作应该专注于通过检索知识来增强表格推理能力。在表格推理任务中，LLM可能难以理解表格中某些实体的含义，从而降低答案的准确性[Guo等人，2019]。为了解决这一挑战，未来的研究应该检测表格中的未知实体，并注入与这些实体相关的相应知识。

6 结论

在本文中，我们总结了LLMs在表格推理方面的现有研究工作。在LLM时代，LLM之前的监督微调和结果集成方法仍然有效。此外，LLM时代特有的上下文学习、指令遵循和逐步推理技术也可以用来提高模型的表格推理性能。同样，由于LLMs的指令遵循和逐步推理能力，LLMs在表格推理任务中超越了LLM之前的模型。为了激发未来的研究，我们探索了提高表格推理性能的潜在未来方向。我们还探索了四个未来实际应用的改进方向。最后，我们总结了GitHub上当前的表格推理资源，并将继续更新它。

【参考文献】https://arxiv.org/pdf/2402.08259文末明示。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业