我要投稿

解锁数据新动能：从统一数据治理迈向企业级Data Agent

发布日期：2025-03-28 06:46:51 浏览次数： 1755 作者：ruby的数据漫谈

摘要：在当今数字化时代，AI 已成为各个领域的核心驱动力，而数据则是 AI 发展的基石。AI 的应用重度依赖数据，没有数据，AI 就如同无源之水、无本之木。随着 AI 技术的广泛应用，企业对数据的需求呈现出爆发式增长。

数据贯穿于 AI 应用的整个链路。从输入数据、加工数据集，到模型训练、生成向量以及提供提示词，每一个环节都离不开数据的支持。以图像识别为例，为了让 AI 能够准确识别各种物体，需要大量包含不同角度、光照条件下物体的图像数据，AI 模型通过对这些丰富的数据进行学习，逐渐掌握物体特征，从而实

现准确识别。在自然语言处理领域，海量的文本语料是训练模型理解和生成语言的关键。数据就像是 AI 的 “燃料”，优质且充足的数据能够孕育出精准强大的模型，而数据的质量也直接影响着 AI 模型的性能和泛化能力。

数据治理是 AI 应用中不可或缺的部分，它涵盖了数据发现、数据血缘、数据标准、数据质量、数据生命周期以及数据安全等多个方面。在数据发现环节，不同组织之间需要分享和发现数据集、模型等，以便更好地利用数据资源；数据血缘记录了数据之间的生成依赖关系，帮助企业了解数据的来龙去脉；数据标准确保数据的一致性和规范性，数据质量则保证数据的准确性、完整性和可靠性，它们是数据有效利用的基础；数据生命周期管理则关注数据从产生到销毁的整个过程，合理规划数据的存储和处理；数据安全至关重要，通过权限控制、加密策略、访问审计等手段，保障数据的安全使用，防止数据泄露和滥用。优秀的数据治理对 AI 的成功应用至关重要，正如那句 “垃圾进，垃圾出（Garbage in, garbage out）”，如果数据存在错误、缺失或不一致的情况，那么 AI 系统所生成的结果就可能会出现偏差，甚至是完全错误的。

传统困境，治理挑战重重
创新进阶，RAG 与 Data Agent 登场
案例说明

—

传统困境，治理挑战重重

尽管数据对 AI 如此关键，但在实际的企业数据管理中，传统的数据管理技术却面临着重重挑战，这些挑战就像一道道高墙，阻碍着企业充分利用数据的价值。

数据被锁定在不同的数据源中，就像一个个孤立的岛屿。在传统大数据时代，数据主要存储在数据湖、数据仓库、消息队列等结构化、半结构化的存储介质中，而到了 GenAI 时代，向量数据库等非结构化数据存储的应用越来越广泛。不同类型的数据源存储结构和访问方式各异，导致数据难以统一管理和利用。比如，一家电商企业可能将用户交易数据存储在关系型数据库中，用于日常的订单处理和财务结算；而用户的浏览行为数据则存储在日志文件中，以便后续进行用户行为分析。当企业想要综合分析用户的交易行为和浏览行为，从而优化推荐算法时，就会面临巨大的挑战，因为这两种数据分别存储在不同的数据源中，要将它们整合起来并非易事。

数据被地域分割的问题也日益凸显。随着企业数字化转型的深入，越来越多的企业采用多云多域架构，将业务部署在不同的云平台或数据中心。这虽然带来了灵活性和扩展性，但也导致了数据的地域分割。不同云平台之间的数据传输成本高昂，且存在数据合规的限制，如 GDPR、CCPA 等法规对数据的跨境传输和使用提出了严格要求，使得中心化的数据纳管变得不现实。一家跨国企业在全球多个地区设有分支机构，每个分支机构都有自己的数据中心，这些数据中心的数据难以实时汇总和分析，总部在制定全球战略时，就难以获取全面、准确的数据支持。

数据还被组织分割，形成了一个个数据孤岛。在企业内部，不同部门往往拥有各自的数据平台和数据管理方式。业务部门 A 可能使用 Kafka + Redis 来处理支付数据，业务部门 B 则使用 Kafka + AWS - ES 来管理订单数据，AI 工程师可能使用独立的向量数据库来训练模型。这种数据的分散存储使得新业务和 LLM 难以以统一的方式访问所有数据，数据的流通与共享受到极大限制。例如，当企业想要开展一项基于全量数据的客户画像项目时，就需要协调多个部门，耗费大量的时间和精力来整合数据，不仅效率低下，而且容易出现数据不一致的问题。

隐藏在数据底层的问题还有很多，如数据连接、数据主权、数据分类、元数据语义以及数据生命周期管理等。这些问题相互交织，进一步加剧了数据管理的复杂性。多种因素带来的数据管理挑战，导致企业决策信息不完整，缺乏统一的数据视图，使得企业在制定决策时没有全面的决策依据，从而错失商业机会；基础设施的重复建设和投入，造成了资源的浪费，增加了企业的运营成本；数据分散和不统一管理还可能导致数据不一致、数据泄露等风险，影响企业的合规性；数据流通与共享的阻碍，限制了企业内部数据的价值最大化，阻碍了业务创新发展。

统一破局，治理价值凸显

面对传统数据管理的困境，统一数据治理应运而生，成为打破数据孤岛、释放数据价值的关键解决方案。它通过构建统一的数据管控面，实现了全方位的数据管理，为企业带来了诸多价值。

（一）全方位管理，构建统一架构

统一数据治理的核心在于 Unified Catalog，它就像是一个智能的数据指挥官，旨在帮助用户快速构建和管理湖仓架构，实现全方位湖仓管理。在一家大型金融企业中，业务数据分散在多个不同的系统中，包括交易数据库、客户关系管理系统、风险评估系统等。通过 Unified Catalog，企业可以将这些分散的数据进行整合，建立统一的数据 / 元数据管理视图，让数据的结构、来源、更新频率等信息一目了然。在统一权限管控方面，Unified Catalog 支持多租户和权限认证，集中权限管控，实现全域无缝访问。不同部门的员工可以根据自己的权限，安全地访问和使用相关数据，避免了数据泄露和滥用的风险。同时，它还兼容 HMS，与大数据生态天然融合，权限与 Ranger 生态互通，进一步提升了权限管理的灵活性和安全性。在数据智能调优上，它支持多种触发方式，如周期 / 按需 / 条件，调优全托管，优化可观测，大幅提升性能并降低管理成本。这意味着企业可以根据业务需求，灵活地调整数据处理和存储方式，提高数据的利用效率。

（二）Apache Gravitino，统一的核心力量

Apache Gravitino 作为统一数据 / AI 目录，在统一数据治理中发挥着核心作用。它从元数据层面上达到 SSOT（单一事实来源），实现了数据统一视图、统一访问和治理。从核心架构来看，Gravitino 采用了独特的设计，在 Functionality layer，通过 Unified REST APIs 和 Iceberg REST APIs 提供统一的接口，方便用户和各种计算引擎与它进行交互。在 Interface layer，Metalake 包含多个 Catalog，每个 Catalog 对应不同的数据源，如 Hive、Iceberg、MySQL 等，它们就像不同类型数据的 “收纳盒”，有序地组织和管理着数据。在 Core with object model 层，Schema、Table、Fileset、Model、Topic 等承载着具体的元信息，如 Table 的列信息、Fileset 的存储位置信息等，这些元信息就像是数据的 “说明书”，让用户和系统能够更好地理解和使用数据。

在统一数据的访问上，Gravitino 针对 Tabular data 和 Non - tabular data 分别提供了 Unified Tabular API 和 Unified Non - tabular API。以一家媒体公司为例，它既有结构化的用户订阅数据，存储在表格中，也有大量非结构化的视频、图片素材。通过 Gravitino 的统一访问接口，数据分析师可以方便地查询和分析用户订阅数据，而视频编辑人员也可以快速获取和使用相关的素材文件，大大提高了工作效率。在权限管控方面，Gravitino 通过 Unified Access Control API 和 Unifed Authorization REST APIs，结合 IAM Plugin 和 Apache Ranger 等工具，实现了对数据的精细化权限控制，确保数据的安全访问。无论是企业内部的不同部门，还是外部的合作伙伴，都可以根据自己的权限，在安全的前提下访问和使用数据。

—

创新进阶，RAG 与 Data Agent 登场

在统一数据治理的坚实基础上，技术的创新脚步并未停歇。企业级 RAG 和 Data Agent 作为数据管理领域的新兴力量，正逐渐崭露头角，为企业带来更加智能化、高效的数据处理和分析能力，引领企业迈向数据驱动的创新发展之路。

（一）RAG：传统与现代的融合

RAG，即检索增强生成（Retrieval - Augmented Generation），是一种将传统信息检索系统（如搜索和数据库）的优势与生成式大语言模型（LLM）的功能相结合的人工智能框架。它的出现，为解决 AI 在处理自然语言问题时的知识局限性和准确性问题提供了新的思路。在传统的生成模型中，模型主要依赖于预训练时学到的知识，当遇到新的、未在训练数据中出现的问题时，容易产生不准确或不合逻辑的回答。而 RAG 通过引入检索机制，能够从外部知识库或企业内部的大量数据中检索相关信息，并将这些信息与生成模型相结合，从而生成更加准确、上下文相关的答案。

RAG 有多种形态，其中 Basic RAG 是较为基础的一种。它基于向量的检索，易于实现，但通常使用有限的数据，并且缺少对查询和结果进行校验的环节。在一些简单的文档检索场景中，使用 Basic RAG 可以快速地根据用户输入的问题，从向量数据库中检索相关的文本片段，并将这些片段输入到 LLM 中生成回答。但由于其信息来源相对单一，对于一些复杂问题，可能无法提供全面、准确的答案。Advanced RAG 则在 Basic RAG 的基础上进行了改进，它结合了关键字和语义检索的结果，并在检索前后进行一定的预处理。在检索前，它会对用户的问题进行分析和改写，使其更准确地匹配知识库中的信息；在检索后，会对查询结果进行重新排序和内容总结，通过 LLM 进一步提升回答的质量和准确性。这种方式能够提供个性化的结果，并增加更多的上下文信息和一定的推理能力，适用于对回答准确性和丰富性要求较高的场景，如智能客服、智能问答系统等。Multi - modular RAG 则更为先进，它由决策引擎选择 RAG 方法，并使用多种数据源 / 知识库。在处理复杂问题时，决策引擎会根据问题的类型、用户的需求等因素，在不同的知识库之间选择最合适的数据源，并在不同的 retrieve 方式之间进行选择，从而实现意图理解更准确，知识内容更丰富，准确度更高。例如，在处理一个涉及多领域知识的复杂业务问题时，Multi - modular RAG 可以同时从业务数据库、行业报告库、专家知识库等多个数据源中获取信息，并根据问题的特点选择最合适的检索和生成方式，为用户提供全面、深入的解答。

（二）企业级 Multi - modular RAG 系统构建

构建企业级 Multi - modular RAG 系统是一项复杂而关键的任务。在传统的构建方式中，需要为每个数据库、每种数据源开发连接器 /reader，获取其描述信息，获得 prompt 模版，进行 NL2SQL/QL（自然语言到 SQL 或其他查询语言的转换），查询数据，然后输入给 LLM 。在一个拥有多种数据源的企业中，可能需要为关系型数据库（如 MySQL）、文档数据库（如 MongoDB）、向量数据库等分别开发不同的连接器，以便能够从这些数据源中获取数据。这种方式虽然能够实现数据的查询和获取，但存在诸多缺点。每个数据源都需要在程序中单独接入，配置复杂度高，开发效率低；不同数据源的连接器之间难以复用，增加了开发和维护的成本；由于数据源的多样性和复杂性，安全管理也变得更加困难，容易出现安全漏洞。

为了解决这些问题，更好的方案是使用统一元数据平台来管理各类数据。通过统一元数据平台，企业可以获取数据内容描述、数据结构、访问方式等信息，借助大模型生成查询指令，并统一进行查询、结果返回、模型传递等操作。这种方式具有诸多优势，它适配简单，开发效率高，只需要对统一元数据平台进行配置和管理，就可以实现对多种数据源的统一访问；统一数据访问和统一权限管控，确保了数据的安全性和一致性，企业可以通过统一的权限管理机制，对不同用户和角色的访问权限进行精细控制，防止数据泄露和滥用；易于扩展，当企业引入新的数据源或业务需求发生变化时，只需要在统一元数据平台中进行相应的配置和扩展，而不需要对每个数据源的连接器进行修改，大大提高了系统的灵活性和可扩展性。

—

案例说明

（一）某先进制造企业：Data+AI 一体化变革

在 Data+AI 一体化的征程中，某先进制造企业面临着诸多严峻的挑战。随着企业数字化转型的深入，大量的非结构化数据如设计图纸、生产日志、设备监控视频等不断涌现，如何将这些海量的非结构化数据进行 “资产化” 管理，成为了企业面临的一大难题。企业还需要实现 Data AI 一体化，打通数据开发与 AI 开发的流程，实现 DataOps/MLOps/LLMOps 的协同工作。这不仅需要技术上的创新，还需要组织架构和业务流程的优化，以确保数据和 AI 团队能够高效协作。在支持业务场景方面，企业需要对接各种机器学习框架，无论是传统的机器学习算法，还是大模型的预训练 / 微调，都需要稳定、高效的数据支持。

为了应对这些挑战，该企业引入了基于 Gravitino 的新一代数据管理方案。在数据开发方面，企业构建了数据开发平台和数据工场，集成了 Flink、Spark、Trino 等多种计算引擎，实现了数据的高效采集、集成、加工和分析。在数据消费环节，BI 平台和数鲸为业务部门提供了直观、便捷的数据查询和分析工具，帮助业务人员快速获取所需信息，做出科学决策。在数据管理和治理方面，治理平台 DAC 和统一元数据元仓发挥了重要作用。统一元数据和统一权限管理，确保了数据的安全、合规使用；实时元仓则保证了数据的实时更新和一致性。在存储引擎方面，企业采用了 Hive、Iceberg、Doris、ES、Talos、RMQ、MySQL、TiDB 等多种存储技术，以满足不同类型数据的存储需求。

在存量数据纳管方面，企业将存量数据挂载至 External Fileset，并支持设置 TTL（生存时间）与 TTV（有效时间）。通过这种方式，企业实现了上下游迁移解耦，不强制迁移，同时支持挂载多种存储类型，对业务透明的数据搬迁。在 Data+AI 一体化开发中，企业利用 Gravitino 实现了数据处理流程和 AI 流程的无缝衔接。数据集成后，通过 NotebookOLAP 进行数据分析和加工，然后将数据写入 Fileset，供 AI 团队进行模型训练和部署。在统一 AI 资产管理方面，企业通过 Gravitino 实现了对 AI 资产的全面管理，包括数据血缘、健康度、使用记录、权限详情等。通过这些措施，企业实现了 AI 资产的可追溯、可管理和可优化。

该企业在实施统一数据治理方案后，取得了显著的成果。在业务案例①中，某业务纳管存量数据后大幅度降本。企业通过识别血缘，根据血缘推荐 TTL、TTV，对冷备和清理无用数据，实现了降本 40% 。在业务案例②中，某业务部门的推荐工作流得到了极大的简化。基于统一元数据打通流程，数据加工直接产生 Fileset，基于 Fileset 实现特征分析与训练，提升了工作效率和模型性能。在业务案例③中，某业务部门的 LLM 微调工作流也得到了优化。未来，企业将实现在线加工微调数据，自动化的模型测试，提高了模型的准确性和可靠性。

（二）某互联网社交平台：元数据管理优化

某互联网社交平台在元数据管理方面也面临着诸多痛点。业务侧耦合度高，元数据使用方调用异构数据源的方式多种多样，这使得元数据的管理和维护变得异常复杂。不同业务部门可能使用不同的工具和接口来访问和操作元数据，导致数据的一致性和准确性难以保证。数据治理能力有限，无法提供统一的审计、权限管理、TTL 能力。这使得平台在数据安全和合规方面存在较大风险，容易出现数据泄露和滥用的情况。半结构化 / 非结构化数据源缺乏管理，跨源数据 Schema 维护成本高。随着平台业务的发展，大量的半结构化数据如用户评论、动态等和非结构化数据如图片、视频等不断增加，这些数据的管理和利用成为了平台面临的挑战。同时，跨源数据的 Schema 不一致，也增加了数据整合和分析的难度。

为了解决这些问题，该平台引入了 OneMeta 统一元数据管理服务。OneMeta 集成了 Gravitino，通过提供定制化接口，如 dropPartitiosByFilter /loadFileDetail/loadFiles 等，满足了平台复杂业务场景的需求。提供定制化 catalog 实现，如 BiliIcebergCatalog / BiliKafkaCatalog / BiliDatabus Catalog 等，降低了代码的侵入性，便于同步社区最新代码。通过 OneMeta，平台解耦了业务方复杂依赖，降低了元数据使用成本；解决了由于引擎间差异、数据源差异造成的元数据不一致问题；解决了由于 Hive MetaStore 造成的性能瓶颈。

在基于 Gravitino Fileset 文件治理方面，该平台取得了显著的成效。通过数据治理平台制定治理策略，通过 OneMeta 对相应 Fileset 进行 TTL 和 EC 打标，SDM 读取 OneMeta tag，向 HDFS Server 发送 TTL & EC 指令，根据看板优化治理策略。这一系列操作使得平台的 HDFS EC 减少了 100PB + 存储成本，HDFS TTL 减少了 300PB + 存储成本。通过对 Fileset 的有效管理，平台提高了数据的利用效率，降低了存储成本，提升了数据治理的水平。

本文从统一元数据管理对于AI Agent实现的优势来说明，在AI时代，通过OneMeta 统一元数据管理服务，可以实现AI Agent对数据湖仓的安全的快速的访问，并且对原有的业务系统入侵较低，本文采用的是Gravitino组件实现的结构化，非结构化的元数据管理。其它有相同功能的组件也是可以，这个案例提出了一种AI agent访问湖仓数据的思路，希望对大家有所帮助。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业