我要投稿

如何建设工业领域高质量数据集？工业过程数据统一语义建模的参考标准和实践

发布日期：2025-04-29 16:17:56 浏览次数： 1522 作者：ThinkMachine

今年4月18日，工业和信息化部总工程师谢少锋，在国务院新闻办举行的关于“人工智能赋能新型工业化”的新闻发布会的发言中，将“加快建设工业领域高质量的数据集，夯实基础底座”放到了人工智能与制造业融合发展的第一位。工业人工智能模型的训练和应用，长期受困于高质量过程数据稀缺的瓶颈。我们在制造业企业推广新一代人工智能技术时，经常遇到这样的问题：不同时期、不同来源、不同人员、不同项目采集的同一生产过程数据（如时间序列、批次数据）含义模糊、格式各异、质量不可靠，不能积累、聚合成可信的工艺数据资产，进而无法有效支持需要大量高质量数据的工业 AI 模型训练。

工业过程专业分工繁杂，数据采集和积累客观具有长期、分散且动态变化的特点，是否可以通过一套工艺过程数据采集管理的标准化方法，构建能够支撑先进 AI 模型训练和应用的、 AI 友好的、可持续累积的、高质量工业过程数据资产，成为人工智能与制造业融合道路上的关键挑战。本文提出“工艺过程统一语义建模”的思路，结合“铜阳极炉精炼工艺”为例，简要介绍该框架的核心构件、建模实践以及如何指导数据采集与整合的初步方法。

一、统一语义建模框架：构建过程数据的“共同语言”

统一语义建模框架的目标，是为企业内所有工业过程数据（特别是时间序列和与之关联的批次/事件数据）提供一套标准化的、精确的、无歧义的描述方法。语义建模方法可以保存数据的业务含义、产生背景、物理单位、有效范围以及数据间的内在联系。类似构建了一种工业数据的“语法和词典”，可以确保现在和将来、专业和非专业的所有参与者（人与机器），都能使用同一种语言来理解和交换工业过程数据。

这个框架可以由几个关键构件组成：

1、定义过程上下文：“方面 (Aspect)”-界定一个有明确业务边界的数据视图或数据集范围。它回答了“这组数据是关于什么的？”的问题。

2、描述过程变量/参数：“属性 (Property)”-在一个“方面”内部，定义具体的测量值、设定值、计算值、状态标识或事件标签。它回答了“这个具体的数据点是什么？”的问题。

3、赋予精确语义：“特征 (Characteristic)”与“单位 (Unit)”-这是语义建模的核心价值点，用于消除歧义，明确属性的内在类型、物理意义、度量单位以及合理约束。它回答了“这个数据点具体代表什么以及如何度量？”的问题。框架通常会设计一组预定义的“特征”，如“测量值 (Measurement)”、“枚举值 (Enumeration)”、“标识符 (Identifier)”等。

4、唯一关联标识：“语义 ID (Semantic Identifier)”-在框架中定义的每一个语义构件（如每个方面、每个属性）分配一个全局唯一的标识符，通常采用 URN（统一资源名称）或 IRI（国际化资源标识符）的形式。

二、标准应用：铜阳极炉过程数据的语义建模实践

我们以铜火法精炼工艺中阳极炉数据工程任务为例，具体展示如何运用“统一语义建模框架”构件，为工艺过程产生的复杂数据建立清晰、一致的语义模型。

1、建模场景细化：阳极炉精炼主要包括氧化、还原两个核心阶段，并最终产出合格的阳极铜。我们需要对整个批次（Charge/Heat）的总结信息、以及两个主要阶段的过程参数（高频时间序列）、还有伴随产生的烟气成分（高频时间序列）进行建模。

2、过程时序数据建模实例 (以氧化阶段为例):

方面 (Aspect):AnodeFurnace_OxidationPhase_TimeSeries

描述: "记录阳极炉氧化阶段关键工艺参数的时间序列数据点。"
语义 ID: urn:com:example:copper-smelter:aspect:anode-furnace-oxidation-ts:1.0

属性 (Properties) 在此方面内定义:

timestamp
: 特征/数据类型 xsd:dateTimeStamp (记录采样时间)
batchIdentifier
: 特征 samm-c:Text (关联到具体批次)
furnaceIdentifier
: 特征 samm-c:Text (关联到具体炉号)
furnaceTemperature
: 特征 samm-c:Measurement, 单位 unit:degreeCelsius (炉膛温度)
oxidationAirFlow
: 特征 samm-c:Measurement, 单位 unit:cubicMetrePerHour (氧化空气流量)
flueGasPressure
: 特征 samm-c:Measurement, 单位 unit:pascal (烟道压力)
sulfurContentEstimate
(可选): 特征 samm-c:Measurement, 单位 unit:percent (过程中硫含量估算值)
... (其他相关参数如燃料流量等)
这样定义的模型，清晰地规定了氧化阶段每分钟（或其他采样间隔）记录的数据点应该包含哪些信息，以及每个信息的精确含义和单位。

3、烟气时序数据建模实例:

方面 (Aspect):AnodeFurnace_FlueGas_TimeSeries

描述: "记录阳极炉烟气成分分析仪的时间序列数据点。"
语义 ID: urn:com:example:copper-smelter:aspect:anode-furnace-fluegas-ts:1.1

属性 (Properties):

timestamp
: 特征/数据类型 xsd:dateTimeStamp
batchIdentifier
: 特征 samm-c:Text
furnaceIdentifier
: 特征 samm-c:Text
so2Concentration
: 特征 samm-c:Measurement, 单位 unit:percent (二氧化硫体积浓度)
o2Concentration
: 特征 samm-c:Measurement, 单位 unit:percent (氧气体积浓度)
coConcentration
: 特征 samm-c:Measurement, 单位 unit:ppm (一氧化碳体积浓度)

4、批次总结数据建模实例:

方面 (Aspect):AnodeFurnace_BatchSummary

描述: "记录一个完整阳极炉精炼批次的最终结果和关键总结信息。"
语义 ID: urn:com:example:copper-smelter:aspect:anode-furnace-batch-summary:2.0

属性 (Properties):

batchIdentifier
: 特征 samm-c:Text (主键)
furnaceIdentifier
: 特征 samm-c:Text
startTime
: 特征/数据类型 xsd:dateTimeStamp (批次开始时间)
endTime
: 特征/数据类型 xsd:dateTimeStamp (批次结束时间)
totalOxidationDuration
: 特征 samm-c:Measurement, 单位 unit:minute (总氧化时长)
totalReductionDuration
: 特征 samm-c:Measurement, 单位 unit:minute (总还原时长)
tappingWeight
: 特征 samm-c:Measurement, 单位 unit:tonne (出铜重量)
tappingTemperature
: 特征 samm-c:Measurement, 单位 unit:degreeCelsius (出铜温度)
finalCopperPurity
: 特征 samm-c:Measurement, 单位 unit:percent (最终铜纯度)
oxygenContentPostRed
: 特征 samm-c:Measurement, 单位 unit:ppm (还原末期氧含量)
finalSulfurContentPPM
: 特征 samm-c:Measurement, 单位 unit:ppm (最终硫含量)
... (其他如最终杂质元素含量、能耗等)
这个模型聚合了整个批次的关键性能指标 (KPIs) 和质量结果。

三、标准推行：保障过程数据持续、准确积累的机制

定义了标准语义模型，还需要将这套“共同语言”融入到日常的数据产生、流转和使用的实践中，从而确保持续、准确地积累高质量过程数据资产。这需要将语义标准转化为具体的行动规范：

1、指导数据源头采集与配置：

系统配置依据：
在配置或升级 SCADA、DCS、Historian 等过程数据采集系统时，应强制要求参照企业发布的统一语义模型。数据点（Tag）的命名、描述、工程单位（EU）、量程（Range）、数据类型等配置，都应与语义模型中对应属性的定义保持一致。
标准化输入：
对于需要人工录入的数据（如实验室分析结果、操作事件记录），应设计标准化的录入界面或模板，引导用户按照语义模型的要求输入数据（例如，下拉框选择预定义的枚举值，单位自动关联）。
新源接入规范：
当引入新的生产线、设备或传感器时，必须先在企业语义模型库中对其产生的数据进行标准化定义和注册，然后才能将其数据接入企业数据平台。

2、规范数据接入与及时校验：

语义元数据关联：
在设计数据接口和传输协议时，应尽可能要求源系统在发送数据时携带其对应的语义 ID 或其他可映射到语义模型的标识符。
入口自动化校验：
在数据湖、数据仓库或实时数据平台的入口层，部署基于语义模型的自动化校验规则。这些规则可以检查：

数据类型是否匹配？（例如，温度值不能是字符串）
单位是否正确或可转换？（拒绝或标记单位错误的数据）
数值是否在合理范围内？（基于模型中定义的约束进行初步筛选）
必要元数据是否缺失？（如时间戳、关联的批次号）

质量反馈闭环：
对于校验失败的数据，应有明确的处理流程，如隔离、打标签、通知数据源负责人进行修正，形成数据质量管理的闭环。

3、实现 AI 就绪的数据资产聚合：

假设要训练一个预测阳极铜含氧量的 AI 模型，需要关联还原阶段的时序数据 (AnodeFurnace_ReductionPhase_TimeSeries) 和最终的批次结果 (AnodeFurnace_BatchSummary)。通过共享的 batchIdentifier 以及各变量清晰的语义定义（尤其是 oxygenContentPostRed 的 ppm 单位），可以轻松、准确地构建出包含数千甚至数万个批次的高质量训练数据集。模型开发者无需再担心因数据含义不清或单位混淆而引入噪声。

四、总结

“统一语义建模框架”是构建可信工业过程数据资产的有效方法，通过为每一类过程数据（无论是高频时间序列还是批次总结信息）赋予精确、一致、机器可读的语义定义，并将其融入数据产生、流转、使用的全过程实践中，该框架能够：

从源头上保障数据质量：
指导数据采集配置，规范数据录入，减少因歧义或疏忽导致的数据错误。
确保长期积累的一致性：
即使跨越不同时期、来源、人员和项目，基于同一语义标准产生的数据也具有内在的可比性和可加性。
实现高效、准确的数据整合：
利用语义 ID 作为枢纽，极大简化跨系统、跨维度的数据关联与聚合工作。
直接支撑 AI 应用：
为数据密集型的 AI 模型训练和应用提供大规模、高质量、语义清晰、可信赖的数据基础。

只有解决了工业过程数据在长期、分散、动态采集过程中的持续准确性、一致性和可解释性，构建起真正可信赖、AI友好的核心数据资产，才能为后续工业人工智能的发展打下关键基础。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业