微信扫码
添加专属顾问
我要投稿
数据治理在AI时代扮演着至关重要的角色,本文带你深入了解如何构建企业级Data Agent,释放数据新动能。 核心内容: 1. AI发展中数据的关键作用与挑战 2. 数据治理涵盖的多个维度及其重要性 3. 传统数据管理困境与创新Data Agent解决方案
摘要:在当今数字化时代,AI 已成为各个领域的核心驱动力,而数据则是 AI 发展的基石。AI 的应用重度依赖数据,没有数据,AI 就如同无源之水、无本之木。随着 AI 技术的广泛应用,企业对数据的需求呈现出爆发式增长。
数据贯穿于 AI 应用的整个链路。从输入数据、加工数据集,到模型训练、生成向量以及提供提示词,每一个环节都离不开数据的支持。以图像识别为例,为了让 AI 能够准确识别各种物体,需要大量包含不同角度、光照条件下物体的图像数据,AI 模型通过对这些丰富的数据进行学习,逐渐掌握物体特征,从而实
现准确识别。在自然语言处理领域,海量的文本语料是训练模型理解和生成语言的关键。数据就像是 AI 的 “燃料”,优质且充足的数据能够孕育出精准强大的模型,而数据的质量也直接影响着 AI 模型的性能和泛化能力。
数据治理是 AI 应用中不可或缺的部分,它涵盖了数据发现、数据血缘、数据标准、数据质量、数据生命周期以及数据安全等多个方面。在数据发现环节,不同组织之间需要分享和发现数据集、模型等,以便更好地利用数据资源;数据血缘记录了数据之间的生成依赖关系,帮助企业了解数据的来龙去脉;数据标准确保数据的一致性和规范性,数据质量则保证数据的准确性、完整性和可靠性,它们是数据有效利用的基础;数据生命周期管理则关注数据从产生到销毁的整个过程,合理规划数据的存储和处理;数据安全至关重要,通过权限控制、加密策略、访问审计等手段,保障数据的安全使用,防止数据泄露和滥用。优秀的数据治理对 AI 的成功应用至关重要,正如那句 “垃圾进,垃圾出(Garbage in, garbage out)”,如果数据存在错误、缺失或不一致的情况,那么 AI 系统所生成的结果就可能会出现偏差,甚至是完全错误的。
传统困境,治理挑战重重
创新进阶,RAG 与 Data Agent 登场
案例说明
01
—
传统困境,治理挑战重重
尽管数据对 AI 如此关键,但在实际的企业数据管理中,传统的数据管理技术却面临着重重挑战,这些挑战就像一道道高墙,阻碍着企业充分利用数据的价值。
数据被锁定在不同的数据源中,就像一个个孤立的岛屿。在传统大数据时代,数据主要存储在数据湖、数据仓库、消息队列等结构化、半结构化的存储介质中,而到了 GenAI 时代,向量数据库等非结构化数据存储的应用越来越广泛。不同类型的数据源存储结构和访问方式各异,导致数据难以统一管理和利用。比如,一家电商企业可能将用户交易数据存储在关系型数据库中,用于日常的订单处理和财务结算;而用户的浏览行为数据则存储在日志文件中,以便后续进行用户行为分析。当企业想要综合分析用户的交易行为和浏览行为,从而优化推荐算法时,就会面临巨大的挑战,因为这两种数据分别存储在不同的数据源中,要将它们整合起来并非易事。
数据被地域分割的问题也日益凸显。随着企业数字化转型的深入,越来越多的企业采用多云多域架构,将业务部署在不同的云平台或数据中心。这虽然带来了灵活性和扩展性,但也导致了数据的地域分割。不同云平台之间的数据传输成本高昂,且存在数据合规的限制,如 GDPR、CCPA 等法规对数据的跨境传输和使用提出了严格要求,使得中心化的数据纳管变得不现实。一家跨国企业在全球多个地区设有分支机构,每个分支机构都有自己的数据中心,这些数据中心的数据难以实时汇总和分析,总部在制定全球战略时,就难以获取全面、准确的数据支持。
数据还被组织分割,形成了一个个数据孤岛。在企业内部,不同部门往往拥有各自的数据平台和数据管理方式。业务部门 A 可能使用 Kafka + Redis 来处理支付数据,业务部门 B 则使用 Kafka + AWS - ES 来管理订单数据 ,AI 工程师可能使用独立的向量数据库来训练模型。这种数据的分散存储使得新业务和 LLM 难以以统一的方式访问所有数据,数据的流通与共享受到极大限制。例如,当企业想要开展一项基于全量数据的客户画像项目时,就需要协调多个部门,耗费大量的时间和精力来整合数据,不仅效率低下,而且容易出现数据不一致的问题。
隐藏在数据底层的问题还有很多,如数据连接、数据主权、数据分类、元数据语义以及数据生命周期管理等。这些问题相互交织,进一步加剧了数据管理的复杂性。多种因素带来的数据管理挑战,导致企业决策信息不完整,缺乏统一的数据视图,使得企业在制定决策时没有全面的决策依据,从而错失商业机会;基础设施的重复建设和投入,造成了资源的浪费,增加了企业的运营成本;数据分散和不统一管理还可能导致数据不一致、数据泄露等风险,影响企业的合规性;数据流通与共享的阻碍,限制了企业内部数据的价值最大化,阻碍了业务创新发展。
统一破局,治理价值凸显
面对传统数据管理的困境,统一数据治理应运而生,成为打破数据孤岛、释放数据价值的关键解决方案。它通过构建统一的数据管控面,实现了全方位的数据管理,为企业带来了诸多价值。
统一数据治理的核心在于 Unified Catalog,它就像是一个智能的数据指挥官,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理 。在一家大型金融企业中,业务数据分散在多个不同的系统中,包括交易数据库、客户关系管理系统、风险评估系统等。通过 Unified Catalog,企业可以将这些分散的数据进行整合,建立统一的数据 / 元数据管理视图,让数据的结构、来源、更新频率等信息一目了然。在统一权限管控方面,Unified Catalog 支持多租户和权限认证,集中权限管控,实现全域无缝访问。不同部门的员工可以根据自己的权限,安全地访问和使用相关数据,避免了数据泄露和滥用的风险。同时,它还兼容 HMS,与大数据生态天然融合,权限与 Ranger 生态互通,进一步提升了权限管理的灵活性和安全性。在数据智能调优上,它支持多种触发方式,如周期 / 按需 / 条件,调优全托管,优化可观测,大幅提升性能并降低管理成本。这意味着企业可以根据业务需求,灵活地调整数据处理和存储方式,提高数据的利用效率。
Apache Gravitino 作为统一数据 / AI 目录,在统一数据治理中发挥着核心作用 。它从元数据层面上达到 SSOT(单一事实来源),实现了数据统一视图、统一访问和治理。从核心架构来看,Gravitino 采用了独特的设计,在 Functionality layer,通过 Unified REST APIs 和 Iceberg REST APIs 提供统一的接口,方便用户和各种计算引擎与它进行交互。在 Interface layer,Metalake 包含多个 Catalog,每个 Catalog 对应不同的数据源,如 Hive、Iceberg、MySQL 等,它们就像不同类型数据的 “收纳盒”,有序地组织和管理着数据。在 Core with object model 层,Schema、Table、Fileset、Model、Topic 等承载着具体的元信息,如 Table 的列信息、Fileset 的存储位置信息等,这些元信息就像是数据的 “说明书”,让用户和系统能够更好地理解和使用数据。
在统一数据的访问上,Gravitino 针对 Tabular data 和 Non - tabular data 分别提供了 Unified Tabular API 和 Unified Non - tabular API。以一家媒体公司为例,它既有结构化的用户订阅数据,存储在表格中,也有大量非结构化的视频、图片素材。通过 Gravitino 的统一访问接口,数据分析师可以方便地查询和分析用户订阅数据,而视频编辑人员也可以快速获取和使用相关的素材文件,大大提高了工作效率。在权限管控方面,Gravitino 通过 Unified Access Control API 和 Unifed Authorization REST APIs,结合 IAM Plugin 和 Apache Ranger 等工具,实现了对数据的精细化权限控制,确保数据的安全访问。无论是企业内部的不同部门,还是外部的合作伙伴,都可以根据自己的权限,在安全的前提下访问和使用数据。
02
—
创新进阶,RAG 与 Data Agent 登场
在统一数据治理的坚实基础上,技术的创新脚步并未停歇。企业级 RAG 和 Data Agent 作为数据管理领域的新兴力量,正逐渐崭露头角,为企业带来更加智能化、高效的数据处理和分析能力,引领企业迈向数据驱动的创新发展之路。
RAG,即检索增强生成(Retrieval - Augmented Generation),是一种将传统信息检索系统(如搜索和数据库)的优势与生成式大语言模型(LLM)的功能相结合的人工智能框架。它的出现,为解决 AI 在处理自然语言问题时的知识局限性和准确性问题提供了新的思路。在传统的生成模型中,模型主要依赖于预训练时学到的知识,当遇到新的、未在训练数据中出现的问题时,容易产生不准确或不合逻辑的回答。而 RAG 通过引入检索机制,能够从外部知识库或企业内部的大量数据中检索相关信息,并将这些信息与生成模型相结合,从而生成更加准确、上下文相关的答案。
RAG 有多种形态,其中 Basic RAG 是较为基础的一种。它基于向量的检索,易于实现,但通常使用有限的数据,并且缺少对查询和结果进行校验的环节 。在一些简单的文档检索场景中,使用 Basic RAG 可以快速地根据用户输入的问题,从向量数据库中检索相关的文本片段,并将这些片段输入到 LLM 中生成回答。但由于其信息来源相对单一,对于一些复杂问题,可能无法提供全面、准确的答案。Advanced RAG 则在 Basic RAG 的基础上进行了改进,它结合了关键字和语义检索的结果,并在检索前后进行一定的预处理 。在检索前,它会对用户的问题进行分析和改写,使其更准确地匹配知识库中的信息;在检索后,会对查询结果进行重新排序和内容总结,通过 LLM 进一步提升回答的质量和准确性。这种方式能够提供个性化的结果,并增加更多的上下文信息和一定的推理能力,适用于对回答准确性和丰富性要求较高的场景,如智能客服、智能问答系统等。Multi - modular RAG 则更为先进,它由决策引擎选择 RAG 方法,并使用多种数据源 / 知识库 。在处理复杂问题时,决策引擎会根据问题的类型、用户的需求等因素,在不同的知识库之间选择最合适的数据源,并在不同的 retrieve 方式之间进行选择,从而实现意图理解更准确,知识内容更丰富,准确度更高。例如,在处理一个涉及多领域知识的复杂业务问题时,Multi - modular RAG 可以同时从业务数据库、行业报告库、专家知识库等多个数据源中获取信息,并根据问题的特点选择最合适的检索和生成方式,为用户提供全面、深入的解答。
构建企业级 Multi - modular RAG 系统是一项复杂而关键的任务。在传统的构建方式中,需要为每个数据库、每种数据源开发连接器 /reader,获取其描述信息,获得 prompt 模版,进行 NL2SQL/QL(自然语言到 SQL 或其他查询语言的转换),查询数据,然后输入给 LLM 。在一个拥有多种数据源的企业中,可能需要为关系型数据库(如 MySQL)、文档数据库(如 MongoDB)、向量数据库等分别开发不同的连接器,以便能够从这些数据源中获取数据。这种方式虽然能够实现数据的查询和获取,但存在诸多缺点。每个数据源都需要在程序中单独接入,配置复杂度高,开发效率低;不同数据源的连接器之间难以复用,增加了开发和维护的成本;由于数据源的多样性和复杂性,安全管理也变得更加困难,容易出现安全漏洞。
为了解决这些问题,更好的方案是使用统一元数据平台来管理各类数据 。通过统一元数据平台,企业可以获取数据内容描述、数据结构、访问方式等信息,借助大模型生成查询指令,并统一进行查询、结果返回、模型传递等操作。这种方式具有诸多优势,它适配简单,开发效率高,只需要对统一元数据平台进行配置和管理,就可以实现对多种数据源的统一访问;统一数据访问和统一权限管控,确保了数据的安全性和一致性,企业可以通过统一的权限管理机制,对不同用户和角色的访问权限进行精细控制,防止数据泄露和滥用;易于扩展,当企业引入新的数据源或业务需求发生变化时,只需要在统一元数据平台中进行相应的配置和扩展,而不需要对每个数据源的连接器进行修改,大大提高了系统的灵活性和可扩展性。
03
—
案例说明
(一)某先进制造企业:Data+AI 一体化变革
在 Data+AI 一体化的征程中,某先进制造企业面临着诸多严峻的挑战 。随着企业数字化转型的深入,大量的非结构化数据如设计图纸、生产日志、设备监控视频等不断涌现,如何将这些海量的非结构化数据进行 “资产化” 管理,成为了企业面临的一大难题。企业还需要实现 Data AI 一体化,打通数据开发与 AI 开发的流程,实现 DataOps/MLOps/LLMOps 的协同工作。这不仅需要技术上的创新,还需要组织架构和业务流程的优化,以确保数据和 AI 团队能够高效协作。在支持业务场景方面,企业需要对接各种机器学习框架,无论是传统的机器学习算法,还是大模型的预训练 / 微调,都需要稳定、高效的数据支持 。
为了应对这些挑战,该企业引入了基于 Gravitino 的新一代数据管理方案 。在数据开发方面,企业构建了数据开发平台和数据工场,集成了 Flink、Spark、Trino 等多种计算引擎,实现了数据的高效采集、集成、加工和分析。在数据消费环节,BI 平台和数鲸为业务部门提供了直观、便捷的数据查询和分析工具,帮助业务人员快速获取所需信息,做出科学决策。在数据管理和治理方面,治理平台 DAC 和统一元数据元仓发挥了重要作用。统一元数据和统一权限管理,确保了数据的安全、合规使用;实时元仓则保证了数据的实时更新和一致性。在存储引擎方面,企业采用了 Hive、Iceberg、Doris、ES、Talos、RMQ、MySQL、TiDB 等多种存储技术,以满足不同类型数据的存储需求。
在存量数据纳管方面,企业将存量数据挂载至 External Fileset,并支持设置 TTL(生存时间)与 TTV(有效时间) 。通过这种方式,企业实现了上下游迁移解耦,不强制迁移,同时支持挂载多种存储类型,对业务透明的数据搬迁。在 Data+AI 一体化开发中,企业利用 Gravitino 实现了数据处理流程和 AI 流程的无缝衔接。数据集成后,通过 NotebookOLAP 进行数据分析和加工,然后将数据写入 Fileset,供 AI 团队进行模型训练和部署。在统一 AI 资产管理方面,企业通过 Gravitino 实现了对 AI 资产的全面管理,包括数据血缘、健康度、使用记录、权限详情等。通过这些措施,企业实现了 AI 资产的可追溯、可管理和可优化 。
该企业在实施统一数据治理方案后,取得了显著的成果 。在业务案例①中,某业务纳管存量数据后大幅度降本。企业通过识别血缘,根据血缘推荐 TTL、TTV,对冷备和清理无用数据,实现了降本 40% 。在业务案例②中,某业务部门的推荐工作流得到了极大的简化。基于统一元数据打通流程,数据加工直接产生 Fileset,基于 Fileset 实现特征分析与训练,提升了工作效率和模型性能。在业务案例③中,某业务部门的 LLM 微调工作流也得到了优化。未来,企业将实现在线加工微调数据,自动化的模型测试,提高了模型的准确性和可靠性 。
某互联网社交平台在元数据管理方面也面临着诸多痛点 。业务侧耦合度高,元数据使用方调用异构数据源的方式多种多样,这使得元数据的管理和维护变得异常复杂。不同业务部门可能使用不同的工具和接口来访问和操作元数据,导致数据的一致性和准确性难以保证。数据治理能力有限,无法提供统一的审计、权限管理、TTL 能力 。这使得平台在数据安全和合规方面存在较大风险,容易出现数据泄露和滥用的情况。半结构化 / 非结构化数据源缺乏管理,跨源数据 Schema 维护成本高 。随着平台业务的发展,大量的半结构化数据如用户评论、动态等和非结构化数据如图片、视频等不断增加,这些数据的管理和利用成为了平台面临的挑战。同时,跨源数据的 Schema 不一致,也增加了数据整合和分析的难度。
为了解决这些问题,该平台引入了 OneMeta 统一元数据管理服务 。OneMeta 集成了 Gravitino,通过提供定制化接口,如 dropPartitiosByFilter /loadFileDetail/loadFiles 等,满足了平台复杂业务场景的需求 。提供定制化 catalog 实现,如 BiliIcebergCatalog / BiliKafkaCatalog / BiliDatabus Catalog 等,降低了代码的侵入性,便于同步社区最新代码 。通过 OneMeta,平台解耦了业务方复杂依赖,降低了元数据使用成本;解决了由于引擎间差异、数据源差异造成的元数据不一致问题;解决了由于 Hive MetaStore 造成的性能瓶颈 。
在基于 Gravitino Fileset 文件治理方面,该平台取得了显著的成效 。通过数据治理平台制定治理策略,通过 OneMeta 对相应 Fileset 进行 TTL 和 EC 打标,SDM 读取 OneMeta tag,向 HDFS Server 发送 TTL & EC 指令,根据看板优化治理策略 。这一系列操作使得平台的 HDFS EC 减少了 100PB + 存储成本,HDFS TTL 减少了 300PB + 存储成本 。通过对 Fileset 的有效管理,平台提高了数据的利用效率,降低了存储成本,提升了数据治理的水平 。
本文从统一元数据管理对于AI Agent实现的优势来说明,在AI时代,通过OneMeta 统一元数据管理服务,可以实现AI Agent对数据湖仓的安全的快速的访问,并且对原有的业务系统入侵较低,本文采用的是Gravitino组件实现的结构化,非结构化的元数据管理。其它有相同功能的组件也是可以,这个案例提出了一种AI agent访问湖仓数据的思路,希望对大家有所帮助。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-03-22
2025-03-17
2025-03-11
2025-03-09
2025-03-05
2025-03-01
2025-02-20
2025-02-17