微信扫码
添加专属顾问
我要投稿
背景介绍
在AI时代,企业的数据平台的架构和功能需要做出哪些调整和优化?为什么?
主持人:人工智能正以前所未有的广度和深度,重塑着各行各业的业务模式。企业数据平台作为AI的核心支撑,也正经历新一轮的技术变革。那么,面对汹涌而来的AI浪潮,数据平台需要在架构和功能上做出哪些调整和优化? 这个问题我们请关涛来为我们分享。
关涛首先回顾了大数据的发展历史,“在2000年开始的大数据时代,特点是数据平台主要通过MapReduce、Spark等分布式计算框架,支撑数据ETL(抽取、转换、加载)、即席查询等海量数据批处理场景。但近年来随着企业机器学习应用的兴起,这类传统批处理模式不再能满足客户更多样、更智能的需求。”
关涛进一步解释道:“搜索推荐、广告排序等场景,普遍采用深度学习、强化学习等算法,对底层数据存储、计算架构提出了更高要求。除了要支持更快的数据流处理,平台还要考虑如何高效管理机器学习的特征数据、样本集、模型等。这促使我们重新思考构建统一的特征工程、模型训练、在线服务等全流程机器学习架构。”
随着AI的快速发展——包括机器学习,数据分析模型,以及近年来大火的ChatGPT、Stable Diffusion等为代表的LLM大语言模型和多模态生成式AI的出现,拓宽了企业数据平台对半、非结构化数据的处理边界。
关涛讲到:“新一代的生成式 AI 和大模型其实给数据领域带来显著的变革,它极大地扩展了数据的处理能力。现在人们通过这些大模型对半、非结构化数据有很好的理解,比如说你可以通过它去理解一本书、一份文档、一个PPT,甚至一段视频,这个实际上是处理能力的显著增强。对平台来说它等同于把以前结构化数据存储的以 SQL 为核心的模式,变成了一个以结构化、半结构化、非结构化三种不同数据存储融合的存储模式。顶层其实就有这个传统的 SQL 的数据分析,以及用大模型为代表的新一代的 AI 技术做的数据处理和分析。所以应该讲这个底层的存储其实被极大地扩展了,顶上的计算模式也被扩展了,那因此,数据平台架构上我们认为也会有三点改变:
第一点,更一体化的湖仓平台——更好地存储和管理半、非、结构化的数据。
第二点,复杂的异构的数据存储其实是带来了元数据管理的挑战,所以 Unity Catalog 可能会成为下一阶段数据平台架构调整的关键。
第三点,改变传统的建模分析的架构,因为半非结构化的数据处理其实是更偏数据信息特征抽取和召回的,很适合AI在这个领域持续高速迭代发展。
自建 or 购买? 企业数据平台的选择题
在构建数据平台时,企业往往面临“自主研发(Make)”还是“外部采购(Buy)”的抉择。哪些情况下应该自建数据平台?什么时候购买商用产品更合适?对此,关涛给出了自己的判断标准。
关涛认为,企业规模和技术实力是影响自建或购买决策的关键因素。他将企业大致分为三类:
除了企业自身条件,业务场景的成熟度也是影响“自建 or 购买”的重要变量。关涛分析道,在技术相对成熟、需求明确的领域,商用产品经过多年市场打磨,功能和性能都比较完善,直接采购可快速上线、降本增效。他举例说:“如果你要采购数据仓库产品,市场上的主流方案,都能提供一整套标准化的数据集成、存储、开发、管理等功能,性能和稳定性也有保障。这些成熟的通用需求,没必要重新造轮子。”
而对于前沿创新、需求尚不明朗的场景,更建议企业保留一定的定制开发空间。“以当下火热的生成式AI为例,很多企业都在探索如何将LLM等大模型应用到业务中,但效果如何、该用什么样的模型、如何与现有系统融合,尚无定论。这种不确定性高的场景,要么自主研发、要么与厂商联合定制,引入一款标准产品风险很大。关键是要为业务留出持续试错、迭代优化的空间。”
构建 Data + AI 一体化平台,赋能企业智能化转型的实践经验
随着AI技术的日益成熟,将机器学习、知识图谱等能力与传统数据平台深度融合,形成“Data+AI”的数据平台,正成为领先企业的核心技术战略。在被问到是否有相关成功经验可以分享这个问题上,关涛分享了他在Data+AI领域的实践经验。
关涛介绍,现在云器科技的产品研发团队在数据平台领域深耕多年,是从最初的大数据批处理平台,到如今的"湖仓一体"架构,我们是经历了多代技术演进过程的开创者和经历者。
关涛回忆到,“其实 ‘湖仓一体’ 这个词是 2019 年我们在阿里云提出来的,这四个字是我选的。然后海外其实有同步,有一个英文的概念叫做Lakehouse,直译过来基本上也就是湖仓一体。” 它的核心理念是打通数据湖(Data Lake)和数据仓库(Data Warehouse),在统一的存储引擎之上,支持多种计算范式,如批处理、流处理、机器学习等。
“在阿里很早期的时候,大家有知道阿里有自己的这个登月的项目,把所有的数据平台统一到一起了,然后又建了自己的数据中台,但是然后他几乎就把自己的所有的数据的资产和处理其实都统一到一个内部的这个产品,叫 ODPS,对外叫 MaxCompute,也是我们原来团队这个负责的产品和工作。有 10 万台的物理服务器,都在 MaxCompute 的这个平台上来跑。但是它就带来了一些诉求,比如说阿里内部除了用 MaxCompute 跑 SQL 以外,有非常多的机器学习的诉求,非常典型的就是搜索推荐和广告的部门,用了很多的 Tensorflow 和 Pytorch 的机器学习算法和传统算法,来做搜索推荐广告的排序和这个召回啊。然后这些算法的数据源很多,其实就是存在 MaxCompute 里的这些数据data,所以在阿里内部你会发现就是有一套数据要统一管理,做登月、做中台以及向上多种引擎的这种诉求。MaxCompute 内部实际上在存储层面做到了统一存储,但同时存储开放包括PAI在内的多重集聚集平台其实可以接上来,所以在更早期的时候,在阿里内部其实就有了“湖仓一体”的一个雏形,只不过当时没有抽象出来这个概念。”
“直到了大概 2018 年 2019 年,我们发现这是个普遍的诉求,就是数据统一组织和管理的诉求。但是上面除了有 SQL 的数据分析以外,其实是有很多 AI 应用的诉求,那它的引擎是多种多样的,比如说有些人用 Spark machine learning 来做传统算法,有些用 Python 来做传统的算法,有些人是用Pytorch,做深度学习的这个模型训练等等,那这种统一的诉求其实应该能对接到一个平台上,那这个平台是什么呢?那最终就是形成了这种湖仓一体的平台,具备数据库的开放性,具备数仓的管理。”
“用这个例子做为一个相对成功的案例来做个总结,总结的经验大概是这样的,就是这是一个典型的 bottom up 的模式,它不是在顶上我先建一套框架来做,而是因为有业务需求,使得我需要把数据统一管理,不然阿里内部的数据就会分散成非常非常多的不同的 duplicate(重复和冗余),这个安全性和数据合规的成本都会很高,但同时顶上有多种引擎来访问的这种需求,这两种需求催生了这样一套架构。”
“第二我们适当时候做的一个抽象。那这个模式本身实际上对当前的 AI infra (AI基础设施)的建设其实是有借鉴意义的,特别是数据平台面向 AI infra 的建设,就是现在是生成式 AI 应用为轴,再向企业切入,就是企业在想说我拿到这个东西能做什么样的应用,能帮助我的业务?然后这些应用会慢慢沉淀出一些数据平台的需求,那这些平台当形成共性的时候,把它抽象起来就是一个好的 data + AI 的基础设施。” 关涛做了一个预测,“这个过程我猜想在未来的两三年之内会逐步地呈现。”
在前面的讨论中,我们探讨了AI时代下数据平台的技术变革趋势,以及企业在构建一体化智能平台过程中的关键考量。但平台只是基础,数据治理能力的提升,才是激活数据价值、助推业务创新的关键所在。那么,企业如何评估自身的数据管理水平,找到优化方向呢?针对这一问题,我们采访了数据资产管理领域的专家唐晨,以下是第四部分的精彩分享:
数据治理成熟度评估的关键要素
唐晨指出,业界已有多个成熟的数据管理能力评估模型,如 DAMA 的 DMBOK(数据管理知识体系)、CMMI 的 DMM(数据管理成熟度模型)等。这些模型从数据架构、质量、安全、价值等多个维度,对数据管理实践进行了系统梳理,是企业进行能力评估和优化的重要参考。
以 DAMA 的 DMBOK 为例,该框架涵盖了数据架构、数据开发、数据安全、元数据、数据质量、主数据、数据仓库与BI、文档与内容等 10 大数据管理功能域,以及数据治理、数据策略等支撑域,为业界广泛采用。
“国内工信部发布的《大数据能力成熟度模型》白皮书,也参考了 DMBOK 等国际通行模型,并结合我国数字经济发展实际,从数据治理、数据架构等9个核心域,提炼了 25 项大数据关键能力,非常适合中国企业使用。”唐晨补充道。他建议企业参照这些权威模型,审视自身各领域的管理现状做出调整和优化。
在开展数据治理评估时,唐晨谈到要聚焦一些量化、可考核的核心指标,以成果为导向推进。“不少模型会从定性角度描述管理的等级特征,但定量分析才能精准刻画现状、衡量提升效果。”他举例说,对于数据开发领域,可重点关注数据使用的普及率,即有多少业务人员能直接使用数据创造价值;还要评估数据开发效能,看一个数据需求从提出到交付的周期有多长,开发效率是反映平台易用性可用性的可靠指标。
唐晨强调,数据管理水平的提升,最终要体现在业务价值上。“一方面,要看数据资产能否持续产生高价值的数据产品和智能应用,推动业务创新。另一方面,对于金融、电信等数据监管要求高的行业,还要评估数据治理对提升合规水平、降低经营风险的贡献。只有聚焦价值导向,数据治理才不会沦为表面工程。”
数据治理成熟度评估不是一蹴而就的,而是一个持续改进的过程,要围绕评估结果建立常态化的运营机制。“很多企业的数字化管理都还处于初级阶段,短期内难以达到最高级别,但可以通过周期性的评估,摸清家底,了解行业对标,有的放矢地制定下一阶段的提升计划。”
以数据质量管理为例,建议企业将评估发现的问题纳入 backlogs(待办事项表),通过定期评审机制,跟踪问题解决的进展,形成 PDCA(计划、执行、检查、处置)的闭环流程,逐步迭代优化。同时,要建立奖惩机制,将数据治理绩效与业务部门和个人 KPI 挂钩,调动各方参与的积极性。“数据治理不是一个部门的事,需要业务、IT、数据团队密切配合,最好能得到最高管理层的支持和推动。”唐晨总结道。
数据治理成熟度评估的关键要素
关涛为今天的访谈主题做了总结,“在不久之前我发表了一篇文章,有一个对 2023 年的整个数据平台的发展的趋势回顾,以及对 2024 年一个展望。在这篇文章中的展望部分我给了一个结论:数据平台面对生成式 AI 和人工智能的快速迭代发展,AI 会成为数据平台的第三次革命。”
“... ...第一次革命是关系数据库带来的,时间点在 1970 年;第二次革命是大数据带来的,大概是从 2000 年开始的。然后这次我们认为是第三次革命,是 AI 带来的。原因就是生成式AI带来的革命性的半、非结构化数据的处理能力的提升,以及可以把数据向更高的认知推动的这个能力。”
当前,不少企业虽拥有丰富的数据资产,但大多仍是"沉睡"状态,难以发挥应有价值。一个重要原因是,从数据中提炼结构化知识的过程,仍高度依赖专家人工,成本高、效率低。而随着知识图谱、认知智能、few-shot learning 等 AI 技术的进步,这一状况有望得到改善。
如果把数据领域做分层理解的话,最底一层是数据本身,那再向上一层是信息。比如说我们看到的报表就是数据抽象出来的信息,再向上能形成很多的知识,再向上其实是有很多的决策,然后在之前的这个结构化的数据处理过程里边,比如说我们通常用 BI 报表去做到这个信息这一层,部分 BI 报表能反映到知识这一层,然后让人来做决策。
未来,借助先进的 AI 算法,企业数据平台可实现业务知识的自动化提炼。比如,金融机构可利用自然语言处理技术,从海量的投资研报、行业分析等非结构化文本中,自动抽取实体、关系、属性等结构化知识要素,组织成知识图谱,进一步封装成智能投顾、风险管理等应用,赋能投资决策。
再如,电商企业可通过计算机视觉算法,对商品图像进行特征分析,构建起完善的商品图谱,增强搜索、推荐的精准度。制造企业则可利用机器学习,从设备日志数据中自动生成故障诊断、预测性维护等知识模型,指导一线员工排查问题、预防故障。可以预见,数据平台与AI技术结合,将大幅提升企业知识管理和业务洞察能力。
“那现在其实我们可以把它(数据处理)扩展到所有的半、非结构化数据优化的处理范围来,然后同时我们的处理引擎原来只是一个机械的处理,做这个关系的运算表达,那现在具备的一定智能理解的能力。所以这两个能力一方面是把数据处理的这个宽度拓宽了,一个是把处理的高度的潜力拉高了。”关涛说道:“我们认为这个真的是第三次革命性的发展。”
从这个视角看,数据平台要向 AI 靠拢,要形成一个 “data + AI” 的平台,它是一个非常自然的一个向前的延伸。
回到下面这个问题:
“其实任何把数据向知识,然后向这个信息向知识,然后向决策提升的这样的一个模式,其实都是非常有前景的方向。然后这些方向又离不开数据,因为数据是最底下的这个根基,大模型的智慧其实本质上来自于数据。”关涛指出,“一个企业相关的这些 knowledge(知识) 其实存储在数据里,那数据平台如何支持好它把应用推动起来,其实才是数据平台要做的事情。”
编者认为,随着人工智能技术的日新月异,未来3-5年,企业数据平台在支撑业务创新、提升运营效率等方面,有望实现诸多突破。业界领先企业已开始探索数据平台与AI平台的深度融合,通过从海量业务数据中自动发现知识、提炼洞察,进而优化业务流程、创新产品服务,这一趋势值得期待。
包括云器科技在内的众多资深数据业界目前都在积极探索 AI 模型与传统数据平台的“合体”,深度挖掘二者的协同潜力。一方面,通过将企业积累的宝贵数据资产用于AI模型的训练和优化,不断提升模型的性能和泛化能力。另一方面,又将这些提炼、沉淀出的模型,集成到数据分析、数据服务等平台,增强对业务的洞察力和智能化水平。
随着“Data + AI”的深度融合,AI 有望成为未来企业数据平台的“标配”,广泛应用于客户画像、精准营销、供应链优化等场景,为企业数字化转型和业务再造注入新动能。未来,企业的数据业务人员,数据工程师可能并不需要精通数据建模、数据底层架构等传统技能,数据平台将“赋能”或支持运营和业务人员,用更易用的方式使用机器学习、深度学习等 AI 技术能力,让企业中更多人成为兼具业务能力和"数据科学"能力的复合型角色。而数据平台的架构演进,也要更多从 AI 应用的需求出发,在存储、计算、安全、治理等方面为机器学习提供原生支持。唯有如此,才能驾驭数据和算法的力量,推动业务创新。
END
▼点击关注云器科技公众号,优先试用云器Lakehouse!
关于云器
往期推荐
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-08-21
2024-04-26
2025-03-19
2025-03-19
2025-03-19
2025-03-19
2025-03-18
2025-03-18
2025-03-18
2025-03-18