我要投稿

DataOps+大模型促进数据工程创新

发布日期：2024-07-21 22:22:20 浏览次数： 2268

导读 ChatGPT4 横空出世，其强大的语义泛化能力以及针对 Zero-Shot、Few-Shot 等场景的特性让 AI 的使用门槛进一步降低，也为各行各业带来了更多想象空间。本文将分享海南数造科技对 DataOps 加大模型驱动数据创新的思考与实践。

主要内容包括以下五大部分：

1. 传统数据管理面临的挑战

2. DataOps 与大模型的结合驱动数据工程创新

3. DataOps+大模型产品落地实践

4. 未来展望

5. 问答环节

分享嘉宾｜杨明皓海南数造科技有限公司高级大数据技术专家

编辑整理｜彭爽

内容校对｜李瑶

出品社区｜DataFun

传统数据管理面临的挑战

企业做数字化转型会制定自己的数字战略，在数字战略与业务战略对齐的过程中，企业也完成了数据从收集、管理到分析的流程，这个流程就是企业数字化转型的体现。

企业数字化转型呈现出三大战略趋势：

首先是数据分析民主化。数据分析不再只是少数人的工作，各个岗位都会去看报表，也会用一些统计算法，以实时支撑业务决策。
第二是数据技术多元化。现在信息系统多元化，数据开发同学面临着各种多元异构的数据。在复杂的数据环境下，我们需要多元化的一些技术组件来支撑，比如 Flink、Spark 等计算组件和存储组件。又比如在很多金融反欺诈场景中，会用到知识图谱建模和分析的数据组件。整体上变成了一个很庞大的、复杂的系统化工程。
第三是业务价值精益化。对于业务部门来说，也希望数据能实现快速变现。

在上述趋势下，我们面临着供需不平衡的痛点。现在市场变化很快，业务同学需要快速响应市场变化，所以经常会有大量的、临时的，且有高时效性要求的数据需求。开发在早期会面临开发环境与测试环境不一致，部署和集成需要大量人工介入，系统之间存在数据孤岛问题。导致调研数据口径要耗费大量时间，数据开发从交付到上线往往超过一周，甚至更长时间。同时也存在数据语义缺失、业务用数困难等其它一些问题。

数据开发工作也像软件工程一样，不应该是瀑布式的流程，即所有事情都要先计划好、设计好才去开发，而是要实现敏捷交付，能够实时地响应需求。当前研发进度是落后于市场需求的。

DataOps 与大模型的结合驱动数据工程创新

在数字化转型的趋势下，也是在上述痛点的驱动下，企业亟需新的数据研发范式，需要满足以下要求：

形成敏捷数据研发流水线；
构建高效的跨域协同机制；
打造自助的用数体验；
建立精细化的运营体系。

这样才能实现快速交付数据的目的。

在这样的背景下，我们提出了 DataOps 的理念。DataOps 是在 DevOps 的基础上发展而来的，其本质是数据工作流的编排、数据的开发、测试、部署上线、回归这套机制需要达到持续集成的效果，有标准化的体系，实现自动化部署，同时优化整个数据发布的流程，优化资源达到敏捷开发交付的效果。

从 2018 年开始，DataOps 的理念度被 Gartner 列入了技术成熟度曲线，并有着逐年上升的趋势。数造科技在 2022 年与信通院联合成立了一个专家工作小组，制定了 DataOps 的能力标准。

介绍了 DataOps 的背景后，让我们再回到 AI。从 AlphaGo 为代表的深度学习技术的发展，到去年 ChatGPT 大语言模型技术的出现，AI 使用门槛越来越低，我们的信息化系统越来越智能化。

仅仅一年时间里，出现了很多基于大语言模型的 AI 工具。我们团队使用了一款名为 Bito 的代码自动生成和检查的开源插件，使得工作效率提升了 20% 以上。

上图展示了我们 DataOps 的标准化流程，在数据的开发、发布的过程中，使用大模型支持代码生成、代码解释以及代码审查的工作，让整个流程更加智能化。

上图中对比了传统数据开发模式和“DataOps+大模型”模式。传统数据开发模式，从数据建模、数据开发到测试、部署、回归，步骤繁杂，需要大量的人力介入。在最早的时候，我们有开发环境、测试环境和准生产环境，不同的环境中会有不同的开发人员维系其参数配置文件。当部署的时候，就要手动改配置文件，往往会引入潜在的风险。

有了 DataOps 这一套敏捷数据开发发布的标准后，就能达到自动化的效果。这些配置文件会被统一、自动化地管理起来，达到一套数据开发，一套数据建模的脚本，能在多套环境里面去使用，配置参数会自动替换。同时还具备数据沙箱的功能，测试数据可能无法体现生产环境的情况，所以可以使用准生产环境的数据去验证脚本。在这种自动化的体系下，加入了一些大模型的能力，可以帮助我们生成一些数据指令，比如自动生成 SQL 或者加入注释，以及自动审查等等。所以“DataOps+大模型”就是在 DataOps 这套标准化流程的体系上，加入自动化和智能化，让数据的开发和交付更加高效。

DataOps+大模型产品实践探索

大模型有很多有趣的应用场景，例如文案生成、数字人、知识检索增强等等。还有一个比较热门的场景就是 Text2SQL，让大模型去生成指令，接下来将介绍我们在这一方向上的探索与实践。

Text2SQL 就是基于以自然语言描述的问题，结合表的元数据信息（包括表名、列名以及表之间的关联关系），生成一个准确的 SQL 语句。2022 年，在大模型出现之前，Text2SQL 基于预训练模型的准确率能够做到 75-77% 左右。这一数据来自 Spider 的评测榜单，这是一个跨域的，在 Text2SQL 领域比较权威的榜单。大模型出现后，每两个月榜单会更新一次，GPT4 做的 Text2SQL 任务，准确率也从原来的 78% 一路飙升到 91%。

而 Text2SQL 任务，产生正确的 SQL 只实现了其一半的价值，对于数据开发人员来说，另一半的价值是快速找到想要的数据。现实的生产环境中有大量的数据库、表，要基于自然语言的提问，找到准确的表和列，也就是准确数据口径。所以我们认为 Text2SQL 的定义还要包括在不同 schema 下面能产生正确 SQL 的任务。

在大模型出现之前的做法，是用 Seq2Seq 的模型。对于提问，表的元数据信息做嵌入，基于嵌入的向量信息，生成 SQL 语句，这里会有 mismatch problem in literature 的问题。我们做文本时，中文转英文或者中文转德文，词语表述不一样，语法结构不一样，但可能语义是一样的。而对于 Text2SQL 的任务来说，语义是不一样的，问题用 SQL 是没办法准确表述的，比如 SQL 中的 group by、intersect、union 是不会在自然语言里面出现的，你不会说：“帮我查这个季度的总销售额，用 group by 这个语句”，所以就会存在语义不对等的问题。

基于这个问题，在模型架构上，比如 Encoder Decoder 上做了很多优化策略。在大模型出来之前，我们常用的就是谷歌 T5-3B、Electra 或者 RoBERTa 这些预训练模型作为模型底座，不断优化其 Encoder，一开始只是简单的 input representation，一个简单的嵌入的任务，但是会发现有 schema-linking 不准确的问题。为了更好地将问题与需要用到的表或者列关联起来，后面有了更复杂的 Structure Modeling 的建模，会对问题建模，对元数据采用更复杂建模的策略，以找到问题相关的表和列。

近几年比较流行的一种方法是基于知识图谱的建模方式，一开始大家会用 GNN 图神经网络的方法去做建模，但存在一个问题，模型更多的是对节点的建模，没办法泛化到两度以上深度的信息。所以后面又提出了 RAT-SQL、RASAT 模型，本质是在知识图谱上去定义 meta-path，把元数据的关联关系定义出来，在 Encoder 会去做多头注意力，把关系的向量信息嵌入到里面，加强问题跟本地元数据的关联性。

Encoder 的优化策略解决完，就到 Decoder，怎么把 encoder 的编码生成 SQL 语句，开始大家会用 Sketch-based 的方法，把生成 SQL 语句拆解成一个个的子部分，生成 select，生成 where，生成 from，基于小的语句去做词槽，把之前 encoder 识别到的表名、列名填到这个词槽里，但实际上效果并不好，会产生很多错误的、不符合语法的 SQL 语句，所以我们用 Generation-based method 的方法，最经典的就是 AST 语法树的结构，让它遵循一定的语法树来生成 SQL，还有 PICARD，在 search 的时候不断地去一个记忆空间检查生成的 SQL 跟前面的 Encoder 的 schema-linking 内容是不是对等的、是不是合语法的，包括 RESDSQL，这样的优化策略，让它生成更加准确的 SQL。

但是仍然不够准确，经过分析，还是存在语义不匹配的问题，于是我们又加入了 Intermediate representation 的架构，发明了基于自然语言跟 SQL 之间的中间语言，NatureSQL、SemQL，先生成中间语言，再基于中间语言生成 SQL，准确率又进一步得到了提升。

大模型出现后，其生成 SQL 的准确度，尤其是 GPT4 基于策略的生成，准确度越来越高。大模型目前主要使用有两种方法，一种是提示工程，一个是基于指令的监督微调，让大模型产生对应的 SQL。

今年这篇论文来自 SQL，也是大模型生成 SQL 任务的常用方法，即基于思维链的方法。在传统 Seq2Seq 的方法中，输入自然语言和 schema 信息，让它去生成 SQL，结果发现这种端到端的方法效果很差，所以才有了 Encoder Decoder 的优化策略。大模型其实也一样，一开始通过 prompt 把自然语言、schema 喂给它，让它生成 SQL，发现准确率有问题，所以后面把大模型的任务拆解成一个个子任务，比如先用一个 schema-linking 的 prompt 的模板，找关联的表、列，再基于表、列，根据问题的复杂性来进行分类，是简单的一个单表查询的 SQL，还是有一些 join 语句的 SQL，还是在 join 的基础上有一些复杂子查询的 SQL。为什么这样分类呢？因为对于很简单的单表查询的 SQL，如果用复杂的 prompt 模板去生成，效果反而会下降，所以加了一个分类的 prompt。在这篇论文里，还加了 self-correction 的 prompt 的模板，告诉大模型再帮我优化一下 SQL。基于这一系列子任务，还有思维链的工程，最终才能让 GPT4 生成比较准确的 SQL 语句。

实践过程中发现，无论是传统的预训练模型还是大模型，都面临着很多挑战。传统预训练模型的语义泛化能力肯定比大模型弱，它的生成能力也不一定比大模型强，容易出现 missmatch 的问题，复杂查询语句的生成能力也比较弱，加上 Encoder、Decoder 采用了大量复杂的优化策略，尤其是基于 graph based 方法，还要人工先生成 meta-path，维护这些 meta-path 也需要大量的工作，相比于大模型的 zero-shot、few-shot 能力，还要准备一些标注语料，工作量也是很大的。比如 T53B 模型用的显卡资源并不比大模型少。

大模型也同样面临一些挑战，最近发表的所有的 Text2SQL 论文全部集中在 GPT4 的研究，对于本地化、私有化的大模型研究偏少。Prompt 的良好实践，比较依赖于思维链，还有 in-context learning，也就是要给大模型一些样例数据去引导它生成更加准确的 SQL，但对于复杂的 schema，就会超出大模型的 token。所以有一种做法是先把表预处理成宽表，生成的 SQL 就没那么复杂了，就变成了基于宽表去生成查询语句，不用做 join 操作。但生成宽表的时候，面临着 schema 非常大的问题，很容易超出它的 token。基于私有化大模型的微调也是非常少的。

我们认为传统预训练模型和大模型都面临着一个共同的挑战，用户在实际使用过程中其实不知道数据是在哪一个数据库中，怎么去从大量的库、表、几千行的 schema 中找到问题对应的列和表，高效的完成 schema-linking 是非常困难的。现在很多 Text2SQL 的评测任务是已经假定了要用哪个库，这个库中的表和列往往是非常少的，所以没有遇到复杂的 schema 中找数的问题。

我们提出了一些实践和方法，先构建一个元数据的语义图谱，语义就是问题加上表名加列名，这就是生成 SQL 需要用到的所有语义。当我们去生成一个语义图谱的时候，有更多的 label 信息，还有指标的描述，能补充到这个语义里，让 prompt 生成的准确率更高。生成语义图谱，需要一套完备的数据治理工具。我们在数据建模的时候，有一套自动化的数据标准工具，把这套数据标准落到数据模型中，称为模型落标的过程。基于数据标准完成数据模型的时候，会把逻辑层、概念层的元数据，还有管理元数据共同落到元数据目录上，再基于元数据目录最终生成语义图谱，这个是生成元数据血缘的过程。

另外有些客户在搭建数仓的过程中，会抄一些事实表、维度表，这种数仓建模的形式，整个数仓建模直接做成从逻辑层开始建模，但是当建模完成后，数据开发人员不知道这个表对应到什么业务口径，而业务口径也不知道这个业务指标需要用到哪些表，有哪些工作流，这也导致了语义不对等的问题。更多业务口径的语义在哪里？其实是在概念层上面，现在大家做概念层的语义其实全部是用知识图谱去做的，所以这个血缘图谱在 Text2SQL 的任务上是非常重要的。很多论文中的数据预处理的工作是在做语义转换，比如表名叫 department，其实就用 DEPT 简称来缩写，DEPT 是一个没有任何意义的列名，SQL 模型怎么能识别得到呢？所以需要一些数据治理的前期准备工作。

现在业界都是基于 GPT4 去做 Text2SQL 任务，我们与一些国产大模型开展生态合作，接入了它们的一些接口去做测试。现在所有测试是基于特定场景、特定数据、特定私有化的大模型去做的，仅供参考，不一定是具有很高的代表性。我们发现私有化大模型的指令微调在 Text2SQL 任务上的效果是有限的，这个问题相信很快会得到解决。另外基于 schema-linking 所选取出来的元数据信息，再去生成 prompt，在私有化的大模型上，Text2SQL 任务有 5% 到 10% 的提升。先用一个 schema-linking 的模型，先找出和问题相关的表名、列名，再基于表名、列名去做prompt 模板，模型的准确率会有提升，而不是直接把所有元数据信息喂给大模型。基于预训练模型 schema-linking 的效果是好于大模型的。In-context learning 对私有化大模型的提升效果是最明显的，大概有 10% 的提升。我们之前 Text2SQL 经常用的 Intermediate Representation 的方法，生成自然语言和 SQL 语句的一种中间语言策略在部分大模型上没有化学反应，甚至效果更差。Self-correction 对私有化大模型有小幅提升。相比于私有化大模型，目前 GPT4 的效果还是遥遥领先的。

这就是我们提出的方法，schema-linking 是基于预训练模型去找到问题相关的表和列名，再基于 prompt 去做大模型，现在很多评测，尤其榜单的评测数据，用到的表名和列名非常少，所以在做 schema-linking 的时候，也加大了难度，给它更多不同的数据库、不同的表、不同的列名，其 AUC 并没有明显的下降。

这是我们基于人大今年发表的一篇 RESDSQL 的论文所做的 schema-linking。其底层是 RoBERTa，基于 RoBERTa 做 Pooling Module，把切的词对应到完整的表名或者列名上，在做多头注意力的时候，对列名做多头注意力，把一些列的信息嵌入到表名上来提升它对问题相关的表名、列名做排序。我们是基于这个模型做的 schema-linking。

我们也参考了阿里发表的 Dail SQL 这篇论文，其中提出了 prompt 模板的一个标准方法，基于 prompt 模板，再加上 GPT4，准确率能达到 85-86%。一开始用了 Code Representation 来表示 schema，然后用了 Intermediate Representation，同时最重要的是加入了 in-context learning。这篇论文中，同时使用了相似的问题和相似的 SQL 去组成 prompt 模板中的示例，提示大模型去生成正确的 SQL。其实这里缺失了 schema 结构的相似性，很多时候sql语句的结构不光取决于问题，还取决于对应的数据库 schema 结构，如何在相似问题和相似 SQL 的基础上引入相似 schema 的判断，我们认为是大模型生成SQL下一个可以探索的方向。

上图中列出了一些 Prompt 的成功实践。比如分割符的应用和结构设计，可以让大模型知道哪一个部分是在提问，哪一个部分是在讲 schema，哪一部分是讲 in-context learning。另外我们会加入一些输出前缀，能让大模型在生成答案的时候更加稳定。这就涉及到大模型的鲁棒性，以及指定遵从性的问题，因为测试的过程中，我们会用大模型去尝试做 schema-linking，让它按 JSON 格式输出问题相关的列名和表名，可能 10 次中会有 1 次报错，比如 JSON 里有个反括号漏掉了，所以鲁棒性还是有一定问题的。

接下来介绍数造科技的产品是如何实现 DataOps 与大模型融合的。

上图是数造科技的产品体系架构。对 DataOps 的整个过程，包括数据集成、开发，提供了标准化的流程和方法，同时基于数据湖仓适配了不同的私有化大模型，基于私有化大模型去完成代码生成、代码解释的工作，帮助 DataOps 提效。同时有统一元数据的服务，对于 Text2SQL 任务来说，语义就在表名、列名和问题上，因此要提供更多的语义信息，构建元数据血缘图谱。

开发治理一体化的数据管道包括管理域、开发域、治理域。其中，治理域包括一套自动化的数据标准和工具，帮助我们在数据建模的时候落地数据标准，不允许生成毫无意义的表名、列名，这些会严重影响 Text2SQL 任务效果。开发域会基于大模型做代码生成、代码解析，还有注释标注的工作。

最后，产品会有持续集成与发布的能力，包括一套代码在多套环境运行的这种多环境创建和管理的能力。

上图展示了我们产品的部分功能界面。有些企业采用 Altas 等开源的图数据血缘工具，它有一个最大的问题是一张表可能有几十个列，一展开就是爆炸式的、很多的点，读起来非常困难。所以我们在数据血缘方面做了很多优化的工作，不光是把底层元数据的数据血缘管理起来，也做了一些可视化的优化，让数据开发人员能真正的基于可视化的界面去探查整个数据血缘。

上图展示的是数据自动落标、工作流编排等功能。

这是我们做的初版 Text2SQL 的智能小助手，基于输入的问题可以找出相关的元数据信息，如果不准，还能根据之前的数据治理标准，手动修正相关的主题域，再去喂给大模型生成 SQL。

生成的 SQL 不单单只是看，有一个比较方便的富文本编辑器，直接在编辑器上选定 SQL 运行，可以查看报表。

最后是持续集成和持续发布的功能。

未来展望

最后分享一些对未来的展望。

我们构建元数据的语义图谱，尤其是指标层，包含了更多的业务语义、业务口径等。如何把每个数据标准自动化工具嵌入到模型中，这是我们未来要做的工作，基于更多的语义，看模型的提升效果怎么样，现在需要一些人工去给 Spider 数据去做语义的补充。

知识图谱有很多子图检索增强问答的方法，我们也在思考，把语义元素去图谱后，能不能借鉴知识图谱基于子图检索增强的方法去嵌入子图的信息，基于子图去提升 schema-linking 的效果，这也是我们未来想要探索的方向。

另外我们看到大模型，把整个 SQL 任务拆成不同的子任务，基于这些子任务的 Prompt 模板，引导模型生成正确的 SQL，那么能否基于大模型去做一个 agent，用不同的子模型去完成各个阶段的 SQL 生成任务，这也是我们目前的一种设想。

近几个月来我们看到了很多 long-context 大模型的出现，现在的大模型可能就是 2k、4k，有一些长文本的大模型已经输入到了 200k。现在 Text2SQL 最大的问题就是怎么把大量的生产环境的元数据喂给模型，所以我们也在想 long-context 的大模型能不能直接把所有的元数据喂给它，不需要再做元数据分片的工作，让它去生成 SQL。当然，关于 long-context 大模型的效果，大家也还在观望中，这种大模型的注意力在于头尾，中间的信息可能会缺失，所以这也是我们关注的一个点。

数造科技专注于数据治理、DataOps、数据开发，是新一代敏捷数据管理平台的供应商，具有大数据赋能能力。

我们的产品是一站式的数据开发管控平台，包括数据治理、血缘图谱的构建，还有自动化标准数据治理的工具，以及行业大数据解决方案。

以上就是本次分享的内容，谢谢大家。

问答环节

Q1：我们现在的实现方案，首先在找数、找表是单独请求了一些模型，可能在找表的时候有一些表的字段翻译，通过翻译之后，确定哪些表可用，然后再去生成 SQL，因为这个环节有一个召回的过程，前几位的表并不是我们想要的表，这方面该如何实现？

A1：如果是表名的翻译召回，还是得看模型底座的能力。

Q2：在测评模型的时候，对 SQL 复杂度的评级，按照 group by 或者列的数量，对 SQL 复杂度做评级，我们现在测出来复杂度较低的，比如说单表、没有 join 的这种成功率比较高，但是复杂度一旦提高，SQL 就可能有一部分没法执行，也有些 SQL 执行出来的数不是我们想看的数。想请教一下，如何解决这类问题？

A2：我们也遇到同样的问题，比如带 wikisql 这种单表的查询，效果是确实不错。但是对于有 join，又有子查询嵌套的 SQL，效果也是不太理想，哪怕基于大模型做了一些监督微调，尤其是我们基于 spider 数据去测，很多问题也遇到过。

Q3：您刚刚有提到关于 Text2SQL，有落地到业务方开始用了吗？

A3：业务方还在尝试中，因为准确率有一定限制。

Q4：我们在实际落地的时候遇到了一个问题，因为其背后是个概率模型，所以它每一次的召回可能是不一样的。第二个就是 meta-data 可能质量很差，需要大量数据治理，比如我们面对的是分析师或者开发工程师，他就觉得我如果要用上 CHAT 的能力，代价非常大，如何去平衡这个问题？如果他不来用，那模型就没有办法继续调优，因为我们没有真实的数据来训练它，如果一直都是预训练模型的话，其实在实际落地场景的时候就会存在问题。

A4：对，这个问题很经典。比如冷启动的问题，预训练的数据或评测的数据中没有过多你自己掌握的语料或在里面。另外很多语义信息，包括表名、列名，需要做数据治理。对于我们本身就是做数据治理的厂商，我们认为不光是为了 Text2SQL，其实下游的所有的业务系统、模型，如果不去做数据治理的话，一样会产生非常多的问题。所以对于我们来说这个不是一个选择题，数据治理这件事是必须要做的。

但是这就会面临一个问题，不能快速变现，业务方希望从帮我更好地管理资产到更快地发现生产价值，周期会非常长。我们目前也没有很好的答案。

Q5：元数据信息是通过什么方式喂给大模型的？

A5：我们输入给大模型，其实还是自然语言的表述，我们的 Prompt 就是一个自然语言的表述，并不是一个向量化的方法，模型内部会有 embedding 层，去做向量化的事情。

Q6：喂给大模型是以一种什么样的形式，包含哪些内容？

A6：元数据 Prompt 模板是看不同的策略，有一些会把它全部拼装成一个序列，表名：列名，列可能有个括号代表它是主键、外键。也有些就把一个 DDL 的语句直接放到 Prompt 上面，这也是一种方法。如果 schema 用 DDL 语句的形式，可能它对大模型的效果会更好一些。

Q7：关于写 SQL 过程 Prompt 的设置，这个设置是有在智能助理里面有做一些提前的设置，还是这些设置都得让用户来写？比如一个场景中，我们有一些枚举的字段，性别这个字段在数据表里面存的是 0 和 1，业务的问题是请统计这个表里面所有男性玩游戏的时间，那么怎样让 GPT 理解到性别的那个字段 0 表示的就是男性，同时在 SQL 里面显示出来。

A7：我们的智能小助手背后已经有一套标准化的模板，基于接入的不同的模型，比如 GPT4 或者私有化部署的大模型，我们会定义一个默认模板，后面我们会考虑可能用户希望自己去探索他的 Prompt 的模板，我们可能会开放 Prompt 编辑的功能，目前是系统内置好的。

如果它是一些枚举值，在你的问题中，你告诉大模型，要找出性别等于男的，可能大模型不一定能 get 到这个信息，有可能会报错。

Q8：你刚刚是说后台有一个 Prompt 模板，相当于用户在登录在对话框里去输入一个问题，其实是会和那个模板结合起来，一起给 GPT 来回答，然后生成 SQL 的？

A8：是的，没错。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业