Chain of Tables表链-大语言模型实现结构化表格数据处理的新范式
引言
近年来,大语言模型(LLM)在自然语言处理领域取得了令人瞩目的突破。从GPT-3到ChatGPT,LLM展现出了惊人的语言理解和生成能力,在问答、对话、写作等任务上的表现已经接近甚至超越人类平均水平。然而,现实世界中大量的数据是以表格样式的结构化数据形式存在的,在政府、企业和其他社会组织机构的信息系统和数据库中,保存了大量结构化形式的业务数据。如何利用LLM的强大能力,自主理解和智能处理表格数据,成为了大语言模型应用能力探索的重要课题。本文将首先分析LLM处理表格数据所面临的独特挑战,包括表格的结构化特点、数值计算的精度问题等;然后介绍业界在这一领域的最新进展,重点剖析谷歌提出的创新性方法Chain of Tables;最后,结合企业的实际应用场景,探讨LLM在企业级表格数据处理中的潜力和发展方向。LLM处理结构化数据的挑战在传统数据管理的语境中,“tabular data”(表格数据)、“table data”(表数据)以及“structured data”(结构化数据)经常可以互换使用,都指的是以行和列形式组织的数据,这类数据通常由行、列、单元格组成,不同列可能代表不同的属性,不同行则代表不同的实例。单元格内的数据类型多样,可能是文本、数值、日期、布尔值等。行与行、列与列之间还可能存在各种关联。50年来,这种结构化数据一直依赖“关系数据库”和“SQL”来完成处理任务。表格数据的异构性、稀疏性等特点,与LLM所擅长处理的连续文本数据有着显著差异,当我们开始尝试使用LLM处理结构化数据时,遇到了诸多挑战:1. 结构和关系的线性化困难:LLM通常以线性序列的形式处理输入,但直接将二维的表格线性化为一维序列,会造成表格结构和单元格间关系的丢失。如何在保留结构信息的同时,让LLM理解和处理表格,是一大难题。2. 精确数值计算的局限性:表格中经常包含大量数值类数据。然而,LLM在处理数值计算,尤其是高精度计算时常常表现得差强人意。如何赋予LLM可靠的数值推理能力,是另一个亟待解决的问题。3. 长文本和大规模数据的效率瓶颈:当表格转换为文本输入LLM时,一个大型的表格可能产生大量的文本,这不仅可能超出LLM的最大输入长度限制,处理效率也会大幅下降。如何在有效利用LLM能力与控制计算开销之间取得平衡,需要精细的设计和权衡。除了这些技术层面的挑战,LLM应用于企业级表格数据还涉及安全性、可解释性等非功能性需求。在金融、医疗等敏感领域,对AI模型的可解释性和可控性有极高要求,这对端到端使用LLM提出了更严格的约束。大语言模型在表格数据推理任务中的发展历程2020年,出现了一些在数据结构上预训练的模型,如TaBERT和TAPAS,它们通过对表格数据的编码和预训练,提升了预训练模型对表格的理解和处理能力。2023年,研究重点转向了表格问答(Table Query)和基于检索的方法(RAG),如TableFormer和Tapex等。这些方法利用知识检索来丰富模型对表格的理解,并引入如SQL等符号推理能力来提升复杂问题的解答准确度。同时,RLHF等技术也被用于调优和改进LLM在表格任务上的表现。2024年,Table Reasoning(表推理)成为新的研究热点。相比之前直接对表格编码或检索的方法,表推理旨在让LLM具备类似人类的迭代思考能力。Chain of Tables等方法让模型通过迭代操作和填充表格,逐步构建起表格与问题间的逻辑关联,从而实现对复杂表格问题的分解和求解。这一思路有望进一步拓展LLM在表格任务上的能力边界。经过几年的发展,LLM在表格数据推理任务中经历了从结构感知(2020)、知识融合(2023)到逻辑推理(2024)的发展演进过程。新的突破:Chain of Tables针对结构化数据的挑战,学术界和工业界一直在积极探索LLM与表格数据的结合方式。谷歌在2024年一月提出的Chain of Tables 是一个典型代表。Chain of Tables 的核心思想是将表格视为一种可被操作、演化的对象,显式地定义一组表操作,如筛选、分组、聚合等。给定一个表格相关的任务,LLM需要逐步地选择合适的表操作并执行,每一步都生成一个新的表格,直至得出最终结果。这样,问题求解的过程形成了一个"链",故称为"Chain of Tables-表链"。1. 显式建模表格结构:通过显式定义表操作并逐步执行,Chain of Tables在推理过程中始终维护着表格的结构,避免了直接线性化的信息损失问题。2. 简化推理任务:每次表操作相当于完成一个子任务,将复杂的推理过程分解为了若干个简单的步骤,降低了对LLM推理能力的要求。同时,表操作序列本身也蕴含了强大的可解释性。3. 提高数据利用率:Chain of Tables可以在推理过程中逐步丰富表格信息。一些初始时并不存在于表中的信息,可以通过LLM分析文本等外部信息补充进来,提高了数据的利用率和融合能力。这里我们用一个常见的关系数据库查询场景为例,看看三种推理方式(一般推理(Generic Reasoning)、程序辅助推理(Program-aided Reasoning)和表格链推理(Chain-of-Table))会如何实现这个场景。场景的输入数据是一个包含4位自行车选手排名信息的表格,以及一个关于"哪个国家在前3名中拥有最多的自行车选手"的问题。
1.一般推理方法:直接将原始表格输入LLM进行推理,但由于问题涉及多步推理,该方法没有给出正确答案。
2.程序辅助推理:通过SQL语句从表格中选取前3名选手,按国家分组统计,再按数量倒序排列,试图找出正确答案。但由于"Country"字段与"Name"字段在同一单元格,SQL无法正确解析,因而该方法也失败了。3.表格链推理(Chain-of-Table):通过迭代的方式,逐步对原始表格进行转换和充实,使其结构更加清晰、内容更加丰富,从而让LLM能够更好地理解问题并给出准确答案。该方法大致分为3个步骤:
- 根据当前表格、问题和历史操作,对下一步操作进行采样。本例中是添加"Country"列。
- 为采样出的操作生成具体参数。本例是为新增的"Country"列填入"ESP"、"ITA"等国家名称。
- 利用丰富后的表格进行推理,给出最终答案。本例中Answer是"Italy",因为在前3名中,意大利选手最多。
整个过程通过迭代表格操作形成了一条 "表格推理链",使得LLM能够基于清晰、丰富的表格数据,进行复杂问题的推理,给出可靠的答案。这体现了表格链推理方法的优越性。当然,Chain of Tables仍然面临一些挑战。中间表格结果的存储是一个问题,特别是对于复杂任务可能需要较长的推理链,存储和检索开销不容忽视。此外,如何平衡表操作集合的丰富性和简洁性,也需要根据具体任务和数据特点进行权衡。Chain of Tables代表了一种全新的思路,为LLM与表格数据的融合提供了新的可能性。类似的思路还可以扩展到更广泛的结构化数据领域,如知识图谱、关系数据库等。企业应用场景下的思考从上世纪70年代关系数据库诞生起,我们已经积累了海量的结构化数据。这些数据分布在ERP、CRM、SCM等各个业务系统中,蕴藏着巨大的价值。如果能充分利用人工智能技术的最新成果,对企业关系数据库中的数据进行自主探索、分析,实现自监督学习,这样的人工智能助手将有可能为企业提供更智能、更高效的数据洞见和业务优化方案。1. 智能数据分析与洞见挖掘:利用Chain of Tables,LLM可以自动对企业数据仓库中的各类报表、交易数据进行分析和挖掘。通过定义合适的表操作集合,LLM可以跨表关联数据,自动计算各类财务、销售指标,生成趋势预测,识别异常情况等。这大大降低了人工分析的成本,提高了分析的广度和深度。2. 半结构化业务单据的信息抽取:企业信息系统保存了很多业务单据,如销售订单、采购合同等,本质上是半结构化数据,即在结构化的表格中包含一些自然语言描述。例如,一张销售订单可能包括售货员手工填写的详细产品描述。如何理解和处理这些文本信息,对订单的自动化处理至关重要。Chain of Tables 可被扩展为"Chain of Hybrid Data",在推理过程中融合结构化信息和非结构化文本,从而更好地理解业务语义。3. 智能流程管理:企业的工作流系统体现了业务流程,通常依赖各类表单驱动。利用Chain of Tables,LLM可以主动分析业务单据、申请表等,自动推荐下一步操作,甚至直接执行一些标准化的审批流程。这可以极大提高流程效率,优化资源配置。4. 智能对话问答:针对企业的表格数据,Chain of Tables可以作为一种高效的问答引擎。用户可以用自然语言提问,LLM通过链式推理生成一系列表操作,自动生成答案。得益于LLM强大的自然语言理解能力,这种问答方式将更加灵活、友好,极大提升用户的交互体验。以上只是一些初步的设想,Chain of Tables的企业应用场景还有待进一步探索和落地。在实践中,我们还需要考虑几个关键问题:1. 如何定义一套覆盖面广、易于扩展的关系数据库表操作集合?这需要深入分析各业务过程模块的数据特点和常见分析任务,并在实践中不断迭代优化。2. 如何控制推理过程的资源开销?对于复杂的分析任务,推理链可能较长,导致时间和空间开销剧增。需要在本地化一些计算密集型操作,如求和、计数等,在推理链中灵活调用。3. 如何保证生成结果的可靠性和可解释性?这对企业财务、销售等核心模块尤为重要。除了常规的测试验证,还需要引入一些可解释性机制,让整个推理过程透明可审计。4. 如何与现有企业信息系统有机集成?新的智能分析、问答能力需要与现有的权限体系、工作流引擎等无缝对接,确保平滑过渡和持续优化。结语大语言模型为智能化处理表格数据带来了新的突破口。以Chain of Tables为代表的创新方法,为结构化数据与LLM的深度融合提供了新的范式。在企业应用场景下,这种融合有望催生一系列智能应用,如智能数据分析、智能流程管理等,为企业数字化转型加速提效。当然,LLM处理表格数据仍然面临诸多技术和应用挑战。这需要学术界和产业界的共同努力,在夯实模型基础能力的同时,深入挖掘行业知识,打造面向企业级应用的端到端解决方案。1.Fang, Xi, et al. "Large Language Models on Tabular Data--A Survey." arXiv preprint arXiv:2402.17944 (2024).
2.Wang, Zilong, et al. "Chain-of-table: Evolving tables in the reasoning chain for table understanding." arXiv preprint arXiv:2401.04398 (2024).