微信扫码
与创始人交个朋友
我要投稿
在大模型时代,数据治理变得尤为重要。随着大数据技术的不断发展,数据规模呈爆炸式增长,数据来源也日趋多样化。如何有效地管理和利用这些数据,成为了企业和社会关注的焦点。本文将探讨在大模型下如何进行数据治理。
大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。
1)Encoder-Only,仅包含编码器部分,主要适用于不需要生成序列的任务,只需要对输入进行编码和处理的单向任务场景,如文本分类、情感分析等,这类代表是BERT相关的模型,例如BERT,RoBERT,ALBERT等
2)Encoder-Decoder,既包含编码器也包含解码器,通常用于序列到序列(Seq2Seq)任务,如机器翻译、对话生成等,这类代表是以Google训出来T5为代表相关大模型。
3)Decoder-Only,仅包含解码器部分,通常用于序列生成任务,如文本生成、机器翻译等。这类结构的模型适用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。这种方法可以使得模型具备广泛的语言知识和理解能力。在预训练之后,模型可以进行有监督微调,用于特定的下游任务(如机器翻译、文本生成等)。这类结构的代表也就是我们平时非常熟悉的GPT模型的结构,所有该家族的网络结构都是基于Decoder-Only的形式来逐步演化。
大模型要发挥价值,需要构建从数据产生、数据整理、模型训练、模型适配到实际部署的完整生态系统。大模型的应用也面临着一些挑战和限制。一方面,大模型的训练和使用需要大量的计算资源和存储资源,成本较高。另一方面,大模型的训练需要大量的标注数据,但标注数据的获取和整理成本也较高。
此外,大模型的可解释性和泛化能力也需要进一步研究和改进。如果不对大模型进行数据治理,可能会导致数据质量低下、数据难以利用、资源浪费、成本增加、数据安全和隐私泄露风险增加等一系列问题。因此,为了确保大模型的有效应用和可持续发展,必须进行数据治理。
不同的利益相关者群体对数据治理的关注点不一样,因此各自的视图也不一样。其中管理者视图可以概括为“五域模型”,分别是“管控域”、“过程域”、“治理域”、“技术域”、“价值域”。
管理者视角-数据治理五域模型
技术视角:企业大数据治理实践指南框架
数据治理体系,包括数据战略、数据治理管控体系(数据治理组织、制度、流程、管控机制、绩效体系及标准体系)、数据架构、主数据、元数据、指标数据、时序数据、数据质量、数据安全、数据集成与交换、数据开放和共享、数据资产管理能力成熟度评估以及数据价值、数据共享、数据变现等多方面。
数据治理车轮图
从数据战略、数据管控(组织管理、制度体系、流程管理及绩效)、三个核心体系(数据标准体系、数据质量体系、数据安全体系)和工具等分别进行介绍数据治理体系。
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:
自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。
无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。
在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。
后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
Gartner在其“数据编织”的架构中提出了Metadata Activation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。
图3:Gartner数据编织架构
图4:Gartner元数据管理技术成熟度
Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。
在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。
随着大模型的不断发展,数据治理将面临更多的挑战和机遇。未来,数据治理将更加注重智能化技术的应用。利用人工智能和机器学习技术对数据进行自动化的分类、标签化和质量检测等操作,提高数据治理的效率和准确性。同时,随着区块链技术的不断发展,数据安全和隐私保护将更加得到重视。区块链的去中心化特性和加密技术可以为数据提供更加安全可靠的存储和传输方式。此外,随着边缘计算的不断发展,数据的处理和分析将更加接近数据源本身,进一步加速数据处理速度和提高实时性。
大模型下的数据治理是一项复杂而重要的任务。通过建立完善的数据质量管理体系、数据安全与隐私保护体系、数据流程管理体系和数据生命周期管理体系等策略,可以有效地实现数据的合规、安全和高效利用。同时,需要不断优化和完善数据治理体系,以适应不断变化的大模型技术和业务需求。只有这样,才能更好地发挥大模型的优势,推动各行业的快速发展和创新进步。
附:大模型赋能数据治理
大模型与数据治理的关系: 数据治理提升数据质量,大模型分析计算能力丰富数据治理手段。
赋能体系建设:
赋能途径:
提质:
降本增效:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17