我要投稿

大模型时代，Data+AI 新趋势洞察

发布日期：2024-11-25 14:34:25 浏览次数： 2021 作者：CloudAI Sphere

一、大模型深入行业落地带来的新的 Data+AI 的诉求

⼤模型的智能化能⼒带来整个⾏业变⾰，⼤模型落地过程中碰到很多机会，也遇到很多数据的挑战。⼤模型本身是基于公开数据以及部分购买的⾼质量数据训练的，以互联⽹公开数据（⽹⻚，论⽂，代码）为主即将耗尽，如何持续提升模型效果，需要有新的数据供给。⼀般来说有以下思路：

⽅向⼀：减少对新数据依赖

通过标注少量数据训练RM，再强化学习（RHLF）
通过数据⻜轮精调模型
合成数据

⽅向⼆：发挥企业⾃有数据价值

数据治理，提炼⾏业语料
应⽤多模态数据
私域数据RAG

尤其是落地企业业务的时候，需要有⾏业知识和企业的数据才能更精准和更智能的解决企业业务，Data+AI 结合显得尤为迫切。为了解决数据和⼤模型结合问题，实践过程中，遇到很多挑战，主要体现在以下⼏个⽅⾯：

挑战⼀：⾼质量数据缺乏

原始⽂件类型多、数量多、源头多，数据冗余、查找困难

这个就需要有数据处理能⼒，帮助⽤户解决⾼质量数据缺乏的问题。

训练：数据规模⼤，格式多样，质量参差不⻬
应⽤（RAG，Agent）：客户数据复杂，包括历史数据杂乱，来源多，格式不统⼀，客户数据不能直接应⽤于⼤模型

挑战⼆：Data+ AI 联动⽋缺

数据不断更新，需要持续做治理，另外数据需要和应⽤联动。典型如：数据⻜轮、在线AI 应⽤等。
当前数据产品和⼤模型产品是分散的，客户需要⽐较⾼的成本，串接两者的能⼒。

因此客户迫切需要打通数据处理、⼤模型到应⽤之间数据流动和应⽤的壁垒，实现 Data+AI联动。客户需要有⼀个完善的workflow 串接整体流程，实现⾃动化，降低⼯程成本。

挑战三：资源类型更复杂，弹性要求更⾼

数据处理需要资源和能⼒，相⽐传统⼤数据资源

类型复杂，需要 GPU，⾼性能存储。
需要更弹性，更灵活。（频率不⾼，利⽤不规整）。

挑战四：传统⼤数据缺乏多模态数据处理能⼒，多模态数据处理更复杂

结构化和多模态数据处理存在差别，多模态更复杂：

1、结构化有更成熟的处理步骤

结构化数据⼀般按照 ODS-DWD-DWS-ADS 来进⾏分层设计。
多模态数据中台⼀般就是原始数据，经过清洗放到数据集（dataset）⾥⾯

2、计算存储区别

结构化存储⽅式更多，计算更简单，有 DSL 语⾔。
多模态存储⽅式少，但是处理通常需要编码。

3、数据治理区别：多模态数据数据可以参考结构化数据，细节存在不同

安全：多模态数据⼀般到路径授权，结构化数据粒度可以做到很细。
数据质量：不同的数据类型，数据质量标准不⼀样
数据⾎缘，数据资产，数据地图等多模态数据数据可以参考结构化数据的处理。

4、数据应⽤⽅法不⼀样

结构化数据是找数据规律。
多模态数据本身⽆法直接分析和应⽤，需要先提取特征，然后分析。

受限于⽆成熟可⽤产品+数据安全考虑，部分⼯程能⼒强的公司专⻔组建数据⼯程团队，但是⼤多数公司和团队，是⽐较难有技术实⼒去构建这种数据⼯程团队。

因此怎么提供⼀个成熟的产品和解决⽅案，帮助⽤户快速构建⾼质量数据以及实现 Data+AI 联动，降低企业为构建⼤模型相关业务难度，对客户来说有⾮常⼤的价值，但同时也是⼀个有⼀定挑战的⼯作。

二、业界的进展

一起看下业界领先的 databricks，azure，阿里云三个厂商的进展。

1、Databricks

databricks 属于业界⽐较早提出了要从通⽤智能⾛向数据智能的理念。并且认为统⼀格式，统⼀元数据，开放的引擎数据湖范式是最有前途的标准架构。

提供数据到AI 全链条能⼒

databricks 原本的业务主要是两块，一块是 spark 生态数仓相关，一块是以 spark 构建AI 小模型工具链。
收购了Mosaic AI 补齐了大模型相关工具链。目前大数据相关和大模型平台在逐步融合中。
通过收购和补齐 workflow，AI App 等能力，形成完整技术栈。

数据平台作⽤不⽌治理能⼒，还提供结构化、⾮结构化数据联合召回

提供 feature 和 function serving 应对结构化数据召回，向量搜索对应非结构化数据召回。
Feature and Function Serving 是低时延实时服务服务于结构化数据 serving 场景。可以通过 catalog 里面定义的 python 函数来实现实时数据转换。返回的数据可以用于实时规则引擎，经典的 ML 应用或者大模型应用。

2、Azure 核心理念：all your data in one place

Microsoft Fabric 是一个端到端的分析和数据平台，专为需要统一解决方案的企业设计。它的理念包括以下几个核心点：

统一的SaaS基础：Microsoft Fabric 建立在服务型软件（SaaS）基础上，将 Power BI、Azure Synapse Analytics、Azure Data Factory 等服务的新旧组件合并到一个统一的环境中，为不同的用户角色（如数据工程师、科学家或仓库专业人员）提供定制化的体验。
简化的分析需求：使用 Fabric，用户无需组装来自多个供应商的不同服务，而是提供了一个无缝集成的用户友好平台，简化了分析需求。
集成的组件：Fabric 将单独的组件集成到一个内聚堆栈中，使用 OneLake 集中数据存储，而不是依赖不同的数据库或数据仓库。AI 功能无缝嵌入 Fabric，无需手动集成，可以轻松地将原始数据转换为商务用户的需要的数据。
集中管理和治理：Fabric 无缝集成了数据和服务，实现统一的管理、治理和发现。它确保了项、数据和行级访问的安全性，可以集中配置核心企业功能，权限会自动应用于所有基础服务。
OneLake：湖屋的统一：OneLake 是构建所有 Fabric 工作负载的基础，提供统一的位置来存储运行工作负载的所有组织数据。它基于 ADLS (Azure Data Lake Storage) Gen2 构建，为面向专业和平民开发者的数据提供单一 SaaS 体验和租户范围的存储。
数据网格体系结构：Microsoft Fabric 使组织和个人能够将大型复杂的数据存储库转变为可操作的工作负载和分析，是数据网格体系结构的一种实现方式。

Microsoft Fabric 旨在提供一个全面的、集成的、易于使用的平台，以简化企业的数据分析和处理需求，同时提高数据的可访问性和安全性。

Fabric 2023 年 11 月底GA，将数据工程、数据湖、数据仓库、机器学习和人工智能整合到一个平台中。