微信扫码
与创始人交个朋友
我要投稿
目前主流的Text2SQL方法,通常局限于能够用关系代数表达的问题上,这仅覆盖了实际用户可能询问的一小部分问题。而检索增强生成(RAG)虽然能处理通过查找数据库中的单个或少数数据记录就能回答的问题,但其能力仍然有限。
为了克服现有方法和基准测试的局限性,本文提出了TAG这一统一且通用的方法论,旨在涵盖语言模型(LMs)与数据库之间未被探索的交互方式。TAG模型旨在利用语言模型的知识和推理能力来处理数据,并为研究如何更好地利用这些能力提供了新的机会。
表增强生成(TAG)方法首先定义了三个关键步骤,如下图所示。
syn
函数接收用户的自然语言请求 ,并生成一个可由数据库系统执行的查询 。给定用户请求后,此步骤负责以下两个方面的工作:exec
函数负责在数据库系统中执行查询 ,以获取表格数据 。gen
函数利用语言模型(LM)根据计算得到的数据 来生成对用户自然语言请求 的回答 。TAG在精确匹配准确率方面表现优异,达到了40%的准确率,而所有其他基线均未能超过20%的准确率。这表明TAG模型在处理自然语言查询到数据库的问题上具有明显的优势。
Text2SQL基线:表现较差,精确匹配准确率不超过20%,特别是在需要排序的查询上,准确率仅为10%,因为很多排序查询需要对文本进行推理。
Text2SQL + LM生成基线:表现同样不佳,尤其在基于匹配和比较的查询上准确率只有10%,原因是执行SQL后将许多行数据输入模型时出现了上下文长度错误。
RAG基线:未能正确回答任何查询,凸显了其在处理此类查询时的不足。
Retrieval + LM Rank基线:仅在一个比较查询中正确回答了一个问题,总体表现仍然不如其他基线。
TAG:整体上正确回答了55%的查询,在比较查询上达到了65%的精确匹配准确率。除排序查询外,该基线在所有查询类型上都保持了超过50%的准确率。
除了提供更高的准确率,TAG方法还在执行时间上表现出优势,平均每个查询的执行时间为2.94秒,比其他基线快最多3.1倍。对于聚合查询,TAG提供了从1999年至2017年在Sepang国际赛道举行的全部比赛的详尽总结。相比之下,RAG基线只能提供部分相关比赛的信息,而Text2SQL + LM基线则无法利用数据库管理系统中的信息,仅依靠参数知识而不提供进一步的分析。
这里使用了手写TAG,即通过Lotus框架人工写查询进行实验。笔者认为其他方法在复杂问题的准确率较低仍然和Text2SQL准确性有关。所以LLM4DB相关任务中虽然不只Text2SQL,但Text2SQL的准确性仍然是核心问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-06-20
2024-06-14
2024-10-14
2024-06-16
2024-10-09
2024-07-03
2024-06-14
2024-05-31
2024-07-24
2024-06-06