我要投稿

UC伯克利和斯坦福最新TAG，结构化数据增强生成，别让Text2SQL和RAG缚住手脚

发布日期：2024-09-20 19:51:00 浏览次数： 3158

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

长期以来，Text2SQL和检索增强生成(RAG)一直是连接自然语言和结构化数据的主要方法。然而，随着用户需求的不断演进和复杂化，这些方法的局限性日益凸显。一个全新的范式呼之欲出- Table-Augmented Generation (TAG)应运而生，表格增强生成。

虽然原文使用了"Table"这个词，Table是结构化数据的最基础的形式，但TAG模型的核心思想是利用结构化的数据来增强生成过程，结构化数据还可以有JSON、XML等，因此，所以我翻译为结构化数据增强生成，"结构化数据"更贴近模型的本质。

现有方法的局限性

Text2SQL和RAG无疑在推动自然语言数据库查询方面做出了巨大贡献。但随着用户需求的日益复杂，这些方法的短板也逐渐显露：

- Text2SQL仅专注于可用关系代数表达的自然语言问题，这只是用户实际需求的一小部分。

- RAG则局限于通过简单的相关性检索来查找一两条数据记录，重点是难以处理需要跨多条记录推理的复杂问题。

这些局限性导致现有系统难以满足真实业务用户的需求。用户经常需要结合领域知识、世界知识、精确计算和语义推理来解答问题，而不是简单的关系运算。

TAG：一个统一的新范式

为了应对这些挑战，UC Berkeley和Stanford University的研究团队提出了Table-Augmented Generation (TAG)模型。TAG不仅统一了此前的方法，更开创性地提出了一个更广泛、更灵活的框架来处理自然语言数据库查询。

Table-Augmented Generation (TAG)模型的核心在于其三阶段设计，这种设计不仅统一了此前的方法，更提供了一个灵活而强大的框架来处理复杂的自然语言数据库查询。让我们深入探讨TAG的每个阶段及其创新之处：

1. 查询合成(Query Synthesis)

公式：syn(R) → Q

这个阶段是TAG模型的起点，也是其创新的关键所在。与传统Text2SQL不同，TAG的查询合成不仅限于生成SQL查询，而是可以生成任何可被数据库系统执行的查询语言。

核心创新点：

- 语义解析：TAG使用语言模型(LM)来理解用户的自然语言请求，这包括识别请求中的实体、关系和操作。

- 模式感知：查询合成过程会考虑数据库的表结构，确保生成的查询与数据模式相匹配。

- 知识整合：TAG允许在这个阶段引入外部知识，例如理解"湾区"包括哪些城市。

实现细节：

研究者使用了指令微调的Llama-3.1模型（70B参数）来执行这一步骤。模型输入包括数据库表结构和用户查询，输出为结构化查询。

2. 查询执行(Query Execution)

公式：exec(Q)→ T

这个阶段充分利用了数据库系统的强大计算能力，同时引入了LM的推理能力，这是TAG相对于传统方法的一大突破。

核心创新点：

- 混合执行：TAG允许在SQL查询中嵌入LM函数调用，实现结构化查询和非结构化推理的无缝结合。

- 效率优化：利用数据库引擎的优化能力，即使在大规模数据集上也能高效执行复杂查询。

- 灵活性：支持多种数据库API，包括传统SQL、向量数据库，以及支持语义操作的新型数据库系统。

实现细节：

研究者使用SQLite3作为基础数据库系统，并在查询中集成了LM的调用。例如，在判断电影是否为"经典"时，直接在SQL查询中调用LM进行评估。

3. 答案生成(Answer Generation)

公式：gen(R， T) → A

这个阶段超越了简单的检索增强生成（RAG），引入了更复杂的LM推理模式。

核心创新点：

- 上下文感知：生成过程同时考虑原始请求(R)和查询结果(T)，确保答案的相关性和准确性。

- 复杂推理：支持多步骤、递归或迭代的LM推理，能够处理需要跨多行数据进行分析的复杂任务。

- 自然语言生成：最终输出流畅、连贯的自然语言答案，而不是简单的数据展示。

实现细节：

研究者使用了与查询合成相同的Llama-3.1模型。模型输入包括原始查询和结构化的查询结果，输出为自然语言答案。

TAG的设计空间

TAG模型的灵活性体现在其丰富的设计空间：

查询类型

TAG能够处理多种查询类型：

- 点查询：类似于基于检索的问题，只需查找数据库中的一两行。

- 聚合查询：如总结或排序问题，需要跨多行数据进行逻辑推理。

- 语义分析任务：如情感分析和分类，需要语言模型的推理能力。

数据模型

TAG可以应用于多种数据存储形式：

- 结构化数据：如关系型数据库

- 非结构化数据：如自由文本、图像、视频和音频

- 半结构化数据：如键值存储、图数据库等

数据库执行引擎和API

TAG支持多种数据库引擎和查询语言：

- 传统SQL引擎

- 向量数据库

- 增强型关系模型：如LOTUS，支持语义操作符

- 集成机器学习功能的SQL变体：如Google BigQuery ML、Microsoft Predictive SQL等

LM生成模式

TAG在答案生成阶段提供了丰富的实现选择：

- 单次LM调用：类似传统RAG

- 迭代或递归LM生成模式：用于处理跨多行数据的推理、转换、聚合或排序任务

实验设计与结果分析

研究者基于广泛使用的BIRD数据集构建了TAG基准测试集。他们选取了5个领域的数据，包括加州学校、信用卡专业、一级方程式赛车、代码库社区和欧洲足球。

他们修改了BIRD中的查询，使其需要世界知识或语义推理才能回答。例如，在加州学校数据库中，一个修改后的查询要求只列出湾区的学校。这需要模型具备湾区包含哪些城市的世界知识。另一个例子是在代码库社区数据库中，要求列出某个帖子下最具讽刺意味的前3条评论，这需要模型对评论文本进行语义分析。

最终的基准测试集包含80个修改后的查询，其中40个需要参数化知识，40个需要推理能力。这些查询涵盖了4种BIRD查询类型：匹配型、比较型、排序型和聚合型。

例如：

- 知识型查询："列出湾区学校中SAT数学平均分超过560的学校数量。"

- 推理型查询："总结题为'Gentle boosting和AdaBoost有何不同？'的帖子下的评论，以回答原问题。"

评估指标

研究者使用了多个评估指标来全面衡量模型性能：

- 精确匹配准确率：用于匹配型、比较型和排序型查询

- 定性分析：用于评估聚合型查询的质量

- 执行时间：衡量模型的效率

实验结果深度分析

1. 准确率比较

- TAG在所有查询类型上的准确率都显著高于基线方法，整体准确率达到55%。

- 在比较型查询上，TAG的准确率高达65%，这表明TAG在处理需要精确计算和判断的任务上特别出色。

- 排序型查询的准确率相对较低（40%），这反映了语义排序任务的固有难度。

2. 效率分析

- TAG的平均执行时间为2.94秒，比最快的基线方法快3.1倍。

- 这种效率优势主要来自TAG对数据库系统和LM能力的优化组合，减少了不必要的LM调用。

3. 聚合查询性能

- 在聚合查询上，TAG展现出了显著优势。例如，在总结赛车比赛历史的查询中，TAG能够提供全面而连贯的摘要，而其他方法要么信息不完整，要么完全依赖LM的参数化知识。

4. 知识型vs推理型查询

- TAG在需要外部知识的查询上准确率为53%，在需要推理的查询上准确率为60%。

- 这个结果表明TAG在整合LM的世界知识和推理能力方面都取得了成功，但在知识应用方面还有提升空间。

5. 错误分析

研究者还对TAG的错误案例进行了深入分析，发现主要的错误来源包括：

- 语义理解偏差：有时TAG会误解查询意图，特别是在处理包含模糊表述的查询时。

- 知识应用不足：在一些需要深度领域知识的查询中，TAG的表现不如预期。

- 多步推理错误：在需要复杂推理链的查询中，错误有时会在中间步骤累积。

这些分析为未来改进TAG模型奠定了基础，包括自动化TAG、加强语义理解能力、扩展知识整合方法，以及优化多步推理过程等。

TAG的技术创新

TAG模型的创新不仅体现在其整体架构上，更体现在各个阶段的技术细节中：

1. 语义操作符集成

TAG允许在数据库查询中使用语义操作符，如sem_filter、sem_topk等。这些操作符直接在数据库层面调用LM，实现了结构化查询和非结构化推理的深度融合。

2. 动态知识注入

TAG能够在查询过程中动态引入LM的参数化知识，这使得系统可以处理需要外部知识的查询，如识别"经典"电影或判断公司所属行业。

3. 多步推理支持

通过LOTUS运行时，TAG支持复杂的多步推理过程。例如，在处理"总结最高票房浪漫电影的评论"这样的查询时，系统可以先筛选电影类型，再排序票房，最后对评论进行摘要。注意：这儿的LOTUS可以理解为一个用LLMs查询数据的引擎，也是这个团队的研究成果。关注我，下一篇我为你详细介绍。

4. 自适应查询规划

TAG的查询合成阶段不仅生成查询，还可以根据任务复杂度动态规划执行策略，决定哪些部分由数据库处理，哪些部分交给LM处理。

TAG的理论贡献与优势

TAG模型的提出不仅是技术上的创新，更是概念上的突破。它为自然语言数据库交互提供了一个统一的理论框架，这个框架有潜力改变我们思考和设计数据库系统的方式。

1. 统一理论框架

TAG证明了可以在一个统一的模型中结合结构化查询的精确性和自然语言处理的灵活性。这为未来的研究提供了一个新的思考方向，可能导致全新类型的数据库系统的出现。

2. 跨域知识整合

TAG模型展示了如何有效地将不同来源的知识（数据库中的结构化知识和LM中的参数化知识）整合在一起。这种方法可能对知识图谱构建和多模态AI系统产生深远影响。

3. 语义数据库概念

TAG实际上提出了"语义数据库"的概念，即一种能够理解和处理自然语言语义的数据库系统。这可能引发数据库领域的范式转移，推动新一代数据管理系统的发展。

4. AI系统设计启示

TAG的成功为AI系统设计提供了新的思路，即如何有效地组合不同AI组件（如数据库和LM）以创造出超越各组件单独能力的系统。这种思路可能影响未来AI架构的设计。

TAG模型的优势主要体现在以下几个方面：

1. 统一框架：TAG unifies了此前割裂的Text2SQL和RAG方法，为处理各类自然语言数据库查询提供了一个统一的范式。

2. 灵活性：TAG的三步框架为系统设计提供了极大的灵活性，可以根据具体应用场景选择最合适的实现方式。

3. 语义理解能力：通过引入LM，TAG能够处理需要复杂语义分析的查询，如情感分析、文本分类等。

4. 知识整合：TAG允许系统同时利用数据库中的结构化知识和LM中的参数化知识，从而回答更广泛的问题。

5. 可扩展性：TAG框架可以轻松扩展到处理半结构化和非结构化数据，为未来的应用奠定基础。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业