微信扫码
添加专属顾问
发布时间:2024 年 04 月 18 日RAG
尽管自动化文本到 SQL 技术不断进步,但与人类专家相比,其执行准确性仍有较大差距。为了提升性能,同时降低成本和加快速度,我们采用了低成本微调、创新的多样化检索增强生成技术(RAG)以及优化的输入输出格式,以助力大型语言模型(LLMs)在 BIRD-SQL 基准测试中获得更高的执行准确性。我们推出了两种创新方法:Dubo-SQL v1 和 v2。Dubo-SQL v1 在 BIRD-SQL 的保留测试集中创下了新纪录,而 Dubo-SQL v2 在开发集上的表现更为出色。Dubo-SQL v1 采用了 OpenAI 的 LLMs,并通过使用成本效益高的 GPT-3.5 Turbo,超越了使用更昂贵 GPT-4 的下一个最佳模型。Dubo-SQL v1 的性能比使用 GPT-3.5 的前最佳模型提高了 20%以上。Dubo-SQL v2 则采用 GPT-4 Turbo 和 RAG 技术,取代了传统的微调方法,进一步提升了执行准确性。
Text2SQL也是AI领域非常火爆的一个应用场景。在BIRD-SQL测试数据集上,LLM通过简单的Zero Shot,可以把准确率从T5-Base的12.89%提升到GPT4的54.89%。但是GPT4的Zero Shot表现相比人类而言,仍然有很大的差距。
• 与Python或C++等语言的代码补全和编写任务不同,SQL编写更依赖于对用户上下文的深入了解。为了编写准确的SQL,可能需要数百万词的完整上下文。大型企业通常拥有成千上万的数据库表和比数据库模式更长的自然语言文档。没有这些指标定义、数据库模式和相关文档,文本到SQL模型最多只能生成语法正确的SQL语句,而无法准确定义用户指标及其所需的表格和列。
研究如何促使LLM更准确地编写代码以回答更复杂的问题,对于提高文本到SQL的执行准确率至关重要。
• 少数样本学习(Few-shot learning)通过在不改变模型参数的前提下,通过仅提供少量问答对,可以在较低的成本下接近或超越微调模型的性能。
• 思维链提示(Chain-of-Thought prompting)通过讨论中间步骤和模仿人类推理,使LLM能够更准确地回答复杂问题。
• 自我反思(Self-reflection)通过调用外部服务来检查LLM的答案,并根据反馈更新答案。
• 还有能够调用外部函数或额外LLM作为子代理的自治代理,这些代理能够自我判断何时成功回答问题或完成任务。在文本到SQL这样的特定领域内,可以预先规划多次调用LLM和其他函数,将问题分解为更易处理的部分,而不必赋予LLM完全的自主权。
• 在这些技术之前,微调(Fine tuning)允许通用LLM针对特定任务进行专业化,只需数百个标记的训练示例。与少数样本学习相比,微调需要更多的示例,但比LLM预训练需要的示例少得多。微调虽然有前期成本,但在推理时可以通过两种方式节省成本:
• 一是微调的小模型可能超过未微调的大模型的性能;
• 二是微调可以替代系统提示和少数样本示例,使得新问题可以用更简洁的提示提交。
• 如果模型被用于推理的次数足够多,微调和推理的总成本可能低于使用少数样本提示的成本。
在这篇文章里,作者开发了两种Text2SQL的方法:
• Dubo-SQL v1:一种低成本、高效率的微调方法,在BIRD-SQL基准测试中创下了新纪录,且成本低于竞争对手
• Dubo-SQL v2:采用了创新的检索增强生成流程,在使用GPT-4 Turbo时性能超过了v1
Dubo-SQL v1(如上图)是一种经济高效的微调技术,与GPT-3.5 Turbo搭配使用,在BIRD-SQL基准测试中刷新了记录;
首先,作者参考上图的示例格式准备表格架构和样本数据,具体案例见上图List 2。我们最多展示五条样本数据,如果每行的令牌数导致整个提示超出模型上下文窗口限制,我们会相应减少数据行数。如果数据库中提供了外键信息,我们也会一并包含,但会移除主键和列约束,以确保只提供数据分析师在编写SQL查询时通常需要的信息。
然后,我们按上图List 3的格式构建提示,具体案例在上图List 4。提示词尽可能简洁明了,不包含任何示例或演示、系统提示、角色分配(例如“你是一位资深数据分析师”)、任务描述或指令。直接提供数据库上下文,并以用户的问题作为结束。
最终,我们将BIRD训练集的样本提交给OpenAI,对GPT-3.5 Turbo进行微调。微调所用的理想响应是直接陈述SQL查询,不附带任何前言、思维过程或如JSON和代码块等格式。我们使用1,724万个令牌,对9,424个BIRD训练样本进行两个epochs的训练。
在测试阶段,以相同的方式构建提示,并将其提交给最大令牌数为1,000的微调模型。在所有情况下,我们都包括BIRD提供的证据,详情如下。在确定最终答案前,我们会尝试执行SQL查询。如果查询返回错误信息,我们会使用原始的用户提示和响应,加上第二个用户提示,分享错误并请求修正的SQL查询,如下图的List 5。
对于Dubo-SQL v2(如上图),作者没有使用Finetune,而是使用了提示工程,包括系统提示和少量样本示例。下图的List 6中的系统提示涵盖了角色分配、任务描述以及输入输出格式的说明。
在Dubo-SQL v1中,作者以CSV格式展示样本数据;而在Dubo-SQL v2中,采用了一种更易于大语言模型读取的输入格式。相较于传统数据分析工具如Python Pandas以及人类通过上下扫视即可轻松理解的CSV数据,大语言模型在处理长CSV文件时,可能难以将数据点与相应列对应起来。因此,我们采用每列独占一行的方式,旁边附上列描述和最多五个示例值。List 6中的系统提示还包含了数据库架构格式的模板,该格式与MAC-SQL相似,但做了细微调整,而提示和流程的其他部分则有显著不同。
作者还引入了以下改进:
• 多样化的RAG:在选择少量样本示例时,首先使用OpenAI的text-embedding-3-large工具计算BIRD训练集中所有自然语言问题向量的嵌入。我们仅嵌入问题本身,不包括证据或正确的SQL语句。对于每个新问题,我们根据余弦相似度来选择少量样本示例。我们发现,许多情况下最为相似的问题仅仅是彼此的小变体。为了获得更具信息量的示例,规定对于任何一个参考数据库,只允许使用一个示例问题-答案对。
• 会话历史中的Few Shot示例:在以往的研究中,Few Shot要么包含在系统提示中,要么包含在用户提示中,并明确指出它们是供大语言模型学习的例子。如果我们将问题作为用户消息、答案作为助手消息纳入会话历史中,并且这些消息的格式与新用户问题的格式以及大语言模型预期的响应格式保持一致,大语言模型能从这些少量样本示例中学到更多。
• JSON格式输出:请求以JSON格式输出结果可以提高执行准确率,相比直接请求SQL语句,无需额外的代码块或JSON格式包装。
上图所示,在BIRD测试集中,Dubo-SQL v1的执行准确率达到了60.71%。不仅超越了基于OpenAI专有模型构建的同类模型,如MAC-SQL(59.59%)、DAIL-SQL(57.41%)、DIN-SQL(55.90%),也超过了BIRD团队设定的零样本GPT-4基线(54.89%)。
此外,Dubo-SQL v1的模型,基于GPT-3.5 Turbo构建,比ChatGPT(39.30%)高出21.41%。
一旦GPT-4的微调功能对公众开放,对Dubo-SQL v1进行类似训练的过程有望进一步提升执行准确率。
如上图所示,Dubo-SQL v2的执行准确率61.47%,比Dubo-SQL v1提高了1.63%,尽管与MCS-SQL和GRA-SQL相比仍有差距。通过引入多样化的少量样本示例,以更高的执行准确率避免了微调步骤,尤其是当与具有更强基线推理能力的大型语言模型Agent应用相结合时。尽管Dubo-SQL v2的推理成本较高,但其初始设置成本较Dubo-SQL v1更低。面对新环境,如大型企业数据库,Dubo-SQL v2能够提供更迅速的初步测试途径。
Dubo-SQL v1的训练费用,按照OpenAI每百万训练令牌8美元的定价,总计为273美元。平均每题的令牌数和95百分位的令牌数分别为1686和3327,其中输出令牌的中位数和95百分位数分别为49和80。根据OpenAI对微调模型的收费标准,即每百万输入令牌3美元,每百万输出令牌6美元,即便是在95百分位的情况下,每道自然语言问题的推理成本也低于0.01美元。
这一成本较之DIN-SQL的每题0.50美元有显著优势,尽管DIN-SQL的性能略低于Dubo-SQL v1,差距为4.81%。考虑到开发集中单就有1533个问题,Dubo-SQL v1的综合推理和训练成本仍低于DIN-SQL。在实际生产环境中,鉴于推理问题与训练问题的比例可能更高,使用Dubo-SQL v1的成本节约将更加显著。
对于Dubo-SQL v2,每道自然语言问题的平均令牌数和95百分位的令牌数分别为7970和13599。根据OpenAI对GPT-4 Turbo的定价,每百万输入令牌10美元,每百万输出令牌30美元,其推理成本为每题低于0.14美元,虽然高于Dubo-SQL v1,但相比DIN-SQL依然具有成本优势。
对Dubo-SQL v2分别测试了加入和不加入我们所引入各项改进的效果,测试样本为从BIRD开发集中随机抽取的500个问题。
• 引入错误修正循环,将执行准确率提升了2.2%。
• 将输出格式从纯文本改为JSON格式,同样提升了2.2%的执行准确率。
• 而从简单的检索增强生成方法,即选择与问题最相似的问题,转变为我们采用的挑选多样化相似问题集的方法,执行准确率提升了2.6%。
• 如果使用Dubo-SQL v1的同一微调模型(GPT3.5),执行准确率会下降6.6%;而如果使用未经微调的GPT-3.5 Turbo,则执行准确率会下降16.0%。
还探讨了使用一至八个少量样本示例的效果,并发现使用四个样本最为理想(见下图)。对于不同的大语言模型Agent应用,理想的少量样本示例数量也会有所不同。
• Github地址:https://github.com/mercatorhq/dubo-sql
https://arxiv.org/abs/2404.12560
if like_this_article():
do_action('点赞')
do_action('再看')
add_wx_friend('iamxxn886')
if like_all_arxiv_articles():
go_to_link('https://github.com/HuggingAGI/HuggingArxiv') star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-15
2026-04-22
2026-04-07
2026-04-07
2026-04-09
2026-04-03
2026-05-15
2026-04-24
2026-04-05
2026-04-17
2026-07-01
2026-06-30
2026-06-28
2026-06-27
2026-06-26
2026-06-26
2026-06-25
2026-06-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。