我要投稿

面向人工智能数据治理应该怎么做？

发布日期：2024-08-09 12:36:20 浏览次数： 2946 作者：ruby的数据漫谈

摘要：随着人工智能（AI）技术的飞速发展，数据治理在AI领域的重要性日益凸显。AI系统的训练和推理依赖于大量高质量数据，这就要求我们必须对数据进行有效的管理和控制，以确保AI应用的准确性、可靠性和安全性。本文探讨面向AI的数据治理的主要步骤和内容。

面向人工智能的数据治理的主要步骤
面向人工智能的数据治理的主要内容

—

面向人工智能的数据治理的主要步骤

20 世纪 80 年代，随着数据库技术的发展，企业开始意识到数据的重要性，伴随着数据仓库的建设，主数据管理与商务智能平台的实施，国内也逐步开始接受并利用数据治理的概念进行推广实践。而到了21 世纪 20 年代，以大模型为代表的生成式模型成为推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。主要体现在三个方面：

（1）非机构化数据的量大，质量低，大部分数据治理是基于结构化数据治理，而AIGC主要是面向非结构化数据，而非结构化数据多源于互联网数据，我们面对多模态、非结构化数据缺乏理论与技术的支撑来客观评价数据质量的高低。

（2）安全与隐私泄露频发，随着人工智能大模型对数据依赖的不断加深，确保数据安全和保护隐私成为了一个至关重要的议题。在整个大模型的开发、管理和应用的全过程中，从数据采集到最终应用的每一个环节，都可能面临安全和隐私方面的挑战和风险。这些问题可能包括数据的无节制收集、样本选择的不均衡、以及数据被恶意篡改等，这些都可能对个人隐私、企业利益甚至整个社会的安全带来严重的威胁。

（3）偏见与歧视随处可见，由于大模型的训练的数据来源多来源互联网，而由于来源多，不可避免存在输入大模型的语料存在偏见或者歧视，也会对大模型的输出产生极大的影响。

基于以上的需求，提出了面向人工智能的数据治理内涵。面向人工智能的数据治理（DG4AI，DataGovernance for Artificial Intelligence）是指在人工智能应用中管理和控制数据的过程与实践，用以确保数据的质量、可靠性、安全性与合规性，数据能够被准确地用于训练和部署 AI 模型，同时保护数据的隐私和安全。

如上图所示，人工智能整体流程分为七个关键步骤：收集数据，预处理，特征工程、标注、增强、划分、训练、验证、推理。而在这关键的七个步骤设计主要的数据治理包含数据质量，数据安全隐私，数据伦理 三个方面的内容。

—

面向人工智能的数据治理的主要内容

‍‍‍‍‍

基于人工智能数据处理步骤，下面详细说明在每一步数据治理需要完成的内容。‍‍‍‍‍‍‍‍‍

（1）在数据采集阶段，治理的焦点覆盖了结构化、非结构化、半结构化数据，以及空间地理和时间序列等多模态数据集。选择数据来源和制定收集策略是影响后续数据质量的关键因素。从一开始，就必须确保数据的有效性和代表性，这是构建高质量数据集的基石。

为了在数据的起点就把控好质量，实施"规范化输入、标准化输出"的策略至关重要。这不仅涉及到验证数据来源的可靠性，还需确保所收集的数据能够全面覆盖必要的维度和场景，以实现数据的广泛性和多样性。

此外，对采集源的原始数据进行标准化处理，以及对采集源的质量进行严格筛选，是确保数据集满足人工智能应用需求的关键步骤。通过这些措施，可以为后续的数据预处理、特征工程等环节打下坚实的基础。

（2）数据预处理/清洗阶段：此阶段数据治理对象是数据收集阶段所采集的多模态数据。此阶段对收集到的数据进行初步处理，去除无关信息，修正错误数据，处理缺失值、异常值、重复值等问题，确保数据质量。数据必须具备高度的质量和准确性，保证训练模型时使用的样本数据能够反映真实世界的情况。

a. 数据清洗：此阶段聚焦于消除数据中的错误、不完整、不一致和重复等问题。具体措施包括：

1、缺失值处理：通过填充（如使用平均值、中位数、众数等）、插值或其他方法处理缺失值。

2、异常值检测与处理：识别并移除或者替换那些明显偏离正，常范围的数据点，防止其对模型训练产生不良影响。例如非结构化文本中的语言一致性检测，特殊符号检测等内容，保障数据内容的正常性。

3、数据一致性校验：对同一实体在不同数据源中的记录进行比对和整合，保证数据的一致性。当对于不同采集源的内容进行相似度对别，如果出现相似度为60%以上的内容，则保留一份数据，保障一致性。

4、去重处理：识别并移除非唯一标识的重复数据记录，避免因重复样本导致的模型训练偏差。

b. 数据标注：在某些 AI 任务中，尤其是监督学习场景下，模型需要依赖带有标签的高质量数据进行训练。高质量的数据标注能有效提高模型理解和学习数据的能力，为后续模型训练奠定基础。一般情况下数据标准通过特定的标签算法进行打标签操作，而有时候算法的标签内容的准确性不是100%的情况下，还需要人工校验和修订。

c. 数据增强：

即使经过精心标注，实际可用的数据量也可能受限，

这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则或算法人为地扩增训练数据，如在图像识别任务中采用翻转、旋转、裁剪、色彩变换等方式生成新的训练样本；在文本数据上，可通过同义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以有效扩大训练样本空间，还可以提高模型的泛化能力和鲁棒性，降低过拟合的风险。

数据清洗和预处理的操作步骤可以跟进当前的操作内容标准化，作为数据进入的标准清洗规则，每个采集进入的数据都经过这些标准化的处理之后进入数据存储，提高数据的准确性。

（3）特征工程阶段：此阶段治理对象包括：原始数据集，中间数据和特征变量、标签数据集等。此阶段将原始数据转化为适合机器学习算法使用的特征表示，包括特征提取、特征选择、特征构造等。对于非结构化数据，可能需要进行特征提取，如文本分词、图像特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息，特征的质量直接影响模型的表现力和泛化能力。

（4）数据标注阶段：此阶段治理对象主要是标注数据集。对于监督学习任务，需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、一致且全面的标注能显著提升模型训练效果。

（5）数据划分阶段：此阶段治理对象主要是训练集、验证集和测试集三类。本阶段将数据集划分为训练集、验证集和测试集，训练集用于训练模型。数据划分阶段的质量治理重点在于保障数据分布和数据平衡，合理地将数据划分为训练集、验证集和测试集，确保每个集合都能代表总体数据分布，有助于避免过拟合或欠拟合。

（6）数据增强阶段：此阶段治理对象主要是合成数据。为了提高模型的泛化能力和应对不平衡数据问题，合成数据是通过模拟或生成技术生成的人工数据，用于模型训练、隐私保护等目的。虽然对合成数据的质量治理不是直接改善原始数据质量，但能间接提高模型对各种情况的适应性和泛化能力。合成数据质量治理包括对合成数据的生成过程、使用限制等方面进行规范和管理。

（7）模型训练阶段：此阶段治理对象主要是训练数据。使用高质量的数据训练模型，会得到更准确、稳定的结果。训练过程中，如果数据质量不佳，模型容易学得有偏差或者过拟合。训练数据的数据质量治理重点保障数据的完整性、准确性、一致性、多样性和代表性。

（8）模型验证与测试阶段：此阶段治理对象主要是验证数据和测试数据，包括对抗性样本、稀有事件或者小样本数据等。模型的性能验证和测试依赖于独立的高质量测试集，只有当测试数据具有良好的代表性时，才能准确评估模型在新样本上的真实性能。在模型验证与测试阶段，对数据的要求和活动更加聚焦于检验模型在未知数据上的表现和鲁棒性，确保模型不仅在训练集上表现出色，而且在新的、未见过的数据上也能维持良好的性能。

（9）模型推理阶段：此阶段治理对象主要是推理数据集。在模型推理阶段，除了确保模型自身的性能以外，还要关注用于推理的实时数据的质量，通过一系列的数据处理活动来保证模型在实际应用中的效果和稳定性。推理数据集质量治理的关注点主要包括推理数据集的数据格式兼容性、数据质量监控、数据有效性验证、实时数据更新与维护、在线特征提取与转换等。