一、大模型深入行业落地带来的新的 Data+AI 的诉求⼤模型的智能化能⼒带来整个⾏业变⾰,⼤模型落地过程中碰到很多机会,也遇到很多数据的挑战。⼤模型本身是基于公开数据以及部分购买的⾼质量数据训练的,以互联⽹公开数据(⽹⻚,论⽂,代码)为主即将耗尽,如何持续提升模型效果,需要有新的数据供给。⼀般来说有以下思路:尤其是落地企业业务的时候,需要有⾏业知识和企业的数据才能更精准和更智能的解决企业业务,Data+AI 结合显得尤为迫切。为了解决数据和⼤模型结合问题,实践过程中,遇到很多挑战,主要体现在以下⼏个⽅⾯:原始⽂件类型多、数量多、源头多,数据冗余、查找困难这个就需要有数据处理能⼒,帮助⽤户解决⾼质量数据缺乏的问题。- 应⽤(RAG,Agent):客户数据复杂,包括历史数据杂乱,来源多,格式不统⼀,客户数据不能直接应⽤于⼤模型
- 数据不断更新,需要持续做治理,另外数据需要和应⽤联动。典型如:数据⻜轮、在线AI 应⽤等。
- 当前数据产品和⼤模型产品是分散的,客户需要⽐较⾼的成本,串接两者的能⼒。
因此客户迫切需要打通数据处理、⼤模型到应⽤之间数据流动和应⽤的壁垒,实现 Data+AI联动。客户需要有⼀个完善的workflow 串接整体流程,实现⾃动化,降低⼯程成本。挑战四:传统⼤数据缺乏多模态数据处理能⼒,多模态数据处理更复杂- 结构化数据⼀般按照 ODS-DWD-DWS-ADS 来进⾏分层设计。
- 多模态数据中台⼀般就是原始数据,经过清洗放到数据集(dataset)⾥⾯
- 结构化存储⽅式更多,计算更简单,有 DSL 语⾔。
3、数据治理区别:多模态数据数据可以参考结构化数据,细节存在不同- 安全:多模态数据⼀般到路径授权,结构化数据粒度可以做到很细。
- 数据⾎缘,数据资产,数据地图等多模态数据数据可以参考结构化数据的处理。
- 多模态数据本身⽆法直接分析和应⽤,需要先提取特征,然后分析。
受限于⽆成熟可⽤产品+数据安全考虑,部分⼯程能⼒强的公司专⻔组建数据⼯程团队,但是⼤多数公司和团队,是⽐较难有技术实⼒去构建这种数据⼯程团队。因此怎么提供⼀个成熟的产品和解决⽅案,帮助⽤户快速构建⾼质量数据以及实现 Data+AI 联动,降低企业为构建⼤模型相关业务难度,对客户来说有⾮常⼤的价值,但同时也是⼀个有⼀定挑战的⼯作。一起看下业界领先的 databricks,azure,阿里云三个厂商的进展。databricks 属于业界⽐较早提出了要从 通⽤智能 ⾛向 数据智能 的理念。并且认为统⼀格式,统⼀元数据,开放的引擎数据湖范式是最有前途的标准架构。databricks 原本的业务主要是两块,一块是 spark 生态数仓相关,一块是以 spark 构建AI 小模型工具链。
收购了Mosaic AI 补齐了大模型相关工具链。目前大数据相关和大模型平台在逐步融合中。
通过收购和补齐 workflow,AI App 等能力,形成完整技术栈。
数据平台作⽤不⽌治理能⼒,还提供结构化、⾮结构化数据联合召回
2、Azure 核心理念:all your data in one place
Microsoft Fabric 是一个端到端的分析和数据平台,专为需要统一解决方案的企业设计。它的理念包括以下几个核心点:- 统一的SaaS基础:Microsoft Fabric 建立在服务型软件(SaaS)基础上,将 Power BI、Azure Synapse Analytics、Azure Data Factory 等服务的新旧组件合并到一个统一的环境中,为不同的用户角色(如数据工程师、科学家或仓库专业人员)提供定制化的体验。
- 简化的分析需求:使用 Fabric,用户无需组装来自多个供应商的不同服务,而是提供了一个无缝集成的用户友好平台,简化了分析需求。
- 集成的组件:Fabric 将单独的组件集成到一个内聚堆栈中,使用 OneLake 集中数据存储,而不是依赖不同的数据库或数据仓库。AI 功能无缝嵌入 Fabric,无需手动集成,可以轻松地将原始数据转换为商务用户的需要的数据。
- 集中管理和治理:Fabric 无缝集成了数据和服务,实现统一的管理、治理和发现。它确保了项、数据和行级访问的安全性,可以集中配置核心企业功能,权限会自动应用于所有基础服务。
- OneLake:湖屋的统一:OneLake 是构建所有 Fabric 工作负载的基础,提供统一的位置来存储运行工作负载的所有组织数据。它基于 ADLS (Azure Data Lake Storage) Gen2 构建,为面向专业和平民开发者的数据提供单一 SaaS 体验和租户范围的存储。
- 数据网格体系结构:Microsoft Fabric 使组织和个人能够将大型复杂的数据存储库转变为可操作的工作负载和分析,是数据网格体系结构的一种实现方式。
Microsoft Fabric 旨在提供一个全面的、集成的、易于使用的平台,以简化企业的数据分析和处理需求,同时提高数据的可访问性和安全性。Fabric 2023 年 11 月底GA,将数据工程、数据湖、数据仓库、机器学习和人工智能整合到一个平台中。
从时间节点来看,阿里的 Openlake 解决方案借鉴了 Azure 的思路,但是做得更大一些。整体理念:从结构化走向多模态数据统一管理和治理。
Openlake 是阿里云 AI 基础技术栈核心位置
通过 Openlake 解决方案,打通计算引擎,数据湖等,实现 Data+AI 统一治理
- 可以看到,业界主流⼚商都⾛向了 Data+AI 。并且都是以传统⼤数据为起点,串联起 AI 的各种能⼒。
- 数据处理⾮常复杂,结合多种引擎和 AI 的能⼒进⾏处理,充分利⽤各种引擎的能⼒。
- 统⼀的元数据管理,开放的数据湖架构,让系统在保证效率的同时,⾜够的扩展性