我要投稿

数据资产与AI应用的未来趋势

发布日期：2024-09-08 08:29:15 浏览次数： 2178 作者：DATA数据社区

目录
数据即服务
AutoML与智能数据分析
联邦学习与隐私计算
可解释AI与可信AI

纵观全局,数据资产与人工智能(AI)的融合发展已成为不可阻挡的时代潮流。一方面,高质量、多维度的数据资产,为AI技术的突破和应用落地提供了"燃料"和"养料";另一方面,AI技术的进步,也为数据资产管理插上腾飞的翅膀,实现数据全生命周期的智能化。二者交织激荡、互促共进,正在开启数字经济的新航程。本文将前瞻数据资产和AI融合发展的趋势,洞悉未来智能化转型的关键路径,为企业构建面向未来的数据战略提供新的视角。

一、数据即服务(Data as a Service)

随着企业数字化转型的深入,海量数据不断汇聚,对数据的管理和运营能力提出了新的要求。DaaS(Data as a Service)应运而生,它提供了一种全新的数据资产交付模式,让数据从后台走向前台,成为可直接消费、可灵活定制的服务产品。

1. DaaS的概念与特点

DaaS是一种云计算交付模式,将数据的采集、存储、处理、分析等功能进行标准化封装,以API、SDK等形式向外部提供服务。用户无需关注数据的底层技术架构和存储方式,只需以服务的形式调用和使用数据。

DaaS具有四大特征:服务化、标准化、灵活性、易用性。首先,DaaS将数据生产能力封装为标准服务,用户按需订阅,即插即用。其次,DaaS对数据进行标准化治理,统一数据模型、元数据、质量标准,让数据可被广泛复用。再次,DaaS支持用户以多样化方式访问数据,兼容批处理、流处理、交互式分析等应用场景。最后,DaaS通过友好的数据门户、智能问答、可视化工具等,让数据触手可及,大幅降低使用门槛。

2. DaaS平台的关键能力

构建一个成熟的DaaS平台,需要打造端到端的数据服务能力,形成从数据到洞见、从洞见到决策的全链路支撑。这其中有四大关键能力:

首先是全域数据整合能力。DaaS需要对内部各领域数据和外部数据进行采集、清洗、关联,形成全域一体的数据资产目录。这需要打通数据孤岛,构建统一数据集成框架,让数据实现"一次接入,多点复用"。

其次是数据治理与安全能力。数据的有序流动需要规则引导、过程管控。DaaS需构建统一的数据标准、质量框架,对数据全生命周期实施端到端监管。同时,严格的权限管控、访问审计、数据脱敏等安全机制,确保合规与隐私。

再次是数据分析与智能挖掘能力。单一的数据披露已无法满足业务洞见需求,DaaS需内置各类分析模型和算法,如用户画像、行为分析、关联分析等,将数据转化为可决策的见解。同时,利用机器学习、知识图谱等AI技术,让数据分析从"制作"走向"自助",用户动动嘴皮就能"问"出洞见。

最后是数据服务集成编排能力。不同业务场景对数据服务有不同需求,DaaS需提供可视化编排工具,让用户自定义数据服务编排流程,将存算分离与存算融合、批处理与实时处理等混合调用,满足个性化需求。

可以预见,DaaS将成为释放数据要素价值的新利器。在DaaS模式下,用户从"生产者"变为"消费者",获得前所未有的数据使用自由。而数据资产则从成本中心转变为盈利中心,创造出新的商业模式。让我们拥抱DaaS新时代,用服务点亮数据,用数据点燃创新!

二、AutoML与智能数据分析

随着AI浪潮的席卷,构建机器学习模型已成为各行各业的"标配"。然而,传统的建模流程高度依赖数据科学家的手工操作,存在响应慢、效率低、门槛高等痛点。AutoML (Automated Machine Learning)应时而生,它将机器学习的重复性工作自动化,大幅提升建模效率和成功率,让"人人都是数据科学家"成为可能。同时,智能数据分析平台的兴起,让业务用户不经代码,即可轻松玩转数据,用指尖触达洞见。二者携手,正在重塑数据分析的新图景。

1. AutoML的发展现状

AutoML,顾名思义,即利用自动化技术实现机器学习全流程或部分环节的自动化,降低建模门槛,提升建模效率。AutoML主要包括三大功能:自动特征工程、自动算法选择和超参数优化、自动模型评估。

自动特征工程利用统计分析、深度学习等技术,自动识别原始数据中的有效特征,自动完成特征编码、归一化、降维等操作,将非结构化数据转化为结构化特征,大幅节省人力。

自动算法选择和超参数优化则利用贝叶斯优化、强化学习、进化算法等技术,自动搜索最优的算法组合和超参数配置,找到性能最佳的模型。谷歌的Cloud AutoML、微软的NNI等产品已初步具备这一能力。

自动模型评估则基于交叉验证、置信区间等技术,自动评估模型的泛化性能,避免过拟合和欠拟合。同时,AutoML还能自动生成模型解释,让"黑盒"模型不再神秘。

目前,AutoML已在图像分类、语音识别、预测分析等场景崭露头角。谷歌、微软、亚马逊等巨头纷纷布局,初创企业如Data Robot、H2O.ai也异军突起。市场研究公司Cognilytica预测,到2023年AutoML市场规模将达到79亿美元,复合年增长率高达44%。

2. 智能数据分析平台的功能与价值

在企业中,不是每个人都是数据科学家,但每个人都需要数据。传统的BI工具虽能实现可视化分析,但缺乏智能分析能力,难以满足业务人员日益增长的数据洞察需求。智能数据分析平台应运而生,它融合了自然语言处理、知识图谱、AutoML等多项AI技术,让数据分析如同"谈话"般自然,用户动动嘴皮就可以为决策"会诊"。

智能分析平台通常具备四大功能:智能数据准备、自助式分析、增强分析、数据洞见管理。

智能数据准备利用数据质量诊断、智能数据发现、数据净化等技术,自动完成80%的数据预处理工作,让用户聚焦分析。自助式分析则通过类自然语言查询、智能问答等技术,让用户用口语化的方式与数据对话,轻松获取指标、报表。增强分析通过自动异常检测、关联分析、因果推理等算法,自动揭示数据中的"有趣"模式。最后,数据洞见管理则帮助用户捕获、存储、分享、追溯分析成果,形成企业级知识库。

智能分析平台在营销、供应链、财务等领域大放异彩。它能帮助营销人员实时掌握市场脉搏,优化营销组合;帮助供应链经理预测需求波动,动态优化库存;帮助财务人员快速核查账目,识别异常交易。沈阳机床、今日头条等企业已从智能分析平台尝到了甜头,实现了数据洞察的民主化。

可以说,AutoML和智能分析平台正在开启数据分析的新纪元,让机器自动完成复杂的分析工作,让人只需"向数据提问"。在这一趋势下,数据资产价值将被极大释放,每个人都能成为自己领域的"数据分析师",以数据之眼洞悉业务奥秘。让我们拥抱AutoML和智能分析新浪潮,让数据分析从"易如反掌"走向"口呼即来",成就智能业务!

三、联邦学习与隐私计算

数据是AI算法的"粮食",算法想要"健康成长",必须要吃到高质量、多样化的"营养"。然而,受数据孤岛、隐私保护等因素制约,不同组织间的数据很难打通,算法很难学到"丰盛"的知识。联邦学习(Federated learning)应运而生,它利用加密通信、差分隐私等隐私计算(Privacy-preserving computation)技术,在保护各方隐私的前提下,实现数据共享建模,让"数据不动、算法动起来"。在当前数据安全日益严峻的大环境下,FL和PPC正成为驱动数据要素流通、催化跨界创新的"利器"。

1. 联邦学习的原理与应用场景

联邦学习,又称联合学习、协同学习,起源于谷歌2016年的一篇论文。其核心思想是:参与方在本地用自己的数据训练机器学习模型,然后上传模型参数(如梯度、权重等)而非原始数据到中心服务器进行聚合,得到全局模型,再分发给各方。通过多轮迭代,模型性能不断提升,最终达到与集中式训练相当的效果。整个过程中,原始数据不出本地,杜绝了隐私泄露风险。

联邦学习的参与方可以是企业、个人、物联网设备等,根据参与方类型可分为横向联邦学习、纵向联邦学习、联邦迁移学习三大类型。

横向联邦学习(Horizontal FL)适用于参与方拥有不同用户的同类数据的场景,如不同银行共享反欺诈模型。纵向联邦学习(Vertical FL)适用于参与方拥有同一用户的不同特征数据的场景,如银行与电商联合授信。联邦迁移学习则适用于参与方数据分布不同的场景,如不同医院共享辅助诊疗模型。

联邦学习已在金融、医疗、工业、交通等领域崭露头角。以金融反欺诈为例,一家银行的用户数据有限,难以训练出鲁棒的风控模型。通过与其他银行联邦,可利用百倍千倍的数据,大幅提升模型性能。平安科技、微众银行等机构在这一领域已有实践。

2. 隐私计算技术保障数据安全

联邦学习只是解决方案层面的描述,背后还需要隐私计算等底层技术作支撑,确保原始数据不泄露、梯度聚合不造成隐私侵蚀。主流的隐私计算技术有三大类:

一是安全多方计算(Secure Multi-Party Computation),通过秘密分享、不经意传输等密码学协议,在多方之间安全地计算一个约定函数,即使参与方串通,也无法窃取他人数据。SMPC可用于联邦学习中的梯度聚合、密钥管理等环节。

二是差分隐私(Differential Privacy),通过在原始数据或计算结果中加入随机噪声,保证恶意人士即使获得含噪声的数据,也难以推断出原始数据,从而保护个体隐私。DP可用于防止梯度反推等隐私攻击。

三是同态加密(Homomorphic Encryption),它允许第三方在密文上进行函数运算,得到仍然是密文的计算结果,解密后与明文计算结果等价。HE可实现"零知识"的多方安全计算。

当前,以上隐私计算技术已有诸多开源框架,如谷歌的TensorFlow Privacy、微软的SEAL等,让联邦学习落地更加便捷。未来,随着隐私计算与区块链、可信计算等技术的深度融合,数据安全、数据质量、系统可信等问题将得到更全面的保障。

联邦学习和隐私计算正在构筑起数据流通的"高速公路",让数据要素在确保安全合规的前提下,实现跨域共享,创造出更大的社会价值。从企业角度看,联邦学习可实现数据变现、知识变现,让数据资产"动"起来、"值"起来。从用户角度看,隐私计算让个人隐私得到安全保护,打消对数据共享的顾虑,让个人数据为自己"代言"。从社会角度看,FL和PPC有望打破行业间的数据壁垒,实现数据要素的自由有序流动,催生出新产业、新业态、新模式。

四、可解释AI与可信AI

人工智能正以"黑盒子"的面貌,深刻影响和重塑人类社会。在享受AI带来便利的同时,人们对AI系统的公平性、透明度、可解释性、可控性等方面,提出了前所未有的诉求。"AI系统为什么这么决策的,如何证明它是可信的?"已成为摆在AI发展面前的紧迫课题。可解释AI(XAI, Explainable AI)和可信AI(Trustworthy AI)应运而生,一方面通过对AI模型的决策逻辑进行解释,增强人机互信;另一方面通过构建可信AI框架,让AI系统更加透明、公平、健壮、隐私保护、人性关怀,实现人机共荣。XAI和TAI正成为引领AI技术迭代、伦理进化的"双引擎"。

1. AI模型可解释性的研究进展

黑盒模型如深度神经网络虽然在识别、预测等智能任务上表现惊艳,但由于其复杂、抽象、非线性的特点,难以解释其决策逻辑,这使得人们难以全面信任AI系统。可解释AI旨在揭开黑盒的神秘面纱,让决策过程"可理解、可分析、可验证"。其理论基础源自因果推理、哲学解释学等,主要分为两大流派:

一是模型可解释性(Model Explainability),指直接设计出可解释的模型结构和决策过程。具体方法包括:① 设计内在可解释的模型,如决策树、线性模型、因果模型等,决策路径清晰透明;② 在黑盒模型中嵌入判别规则、因果图、知识图谱等先验知识,将决策逻辑外显化;③ 通过注意力机制可视化黑盒模型的内部信息流,揭示决策关键点。

二是事后解释(Post-hoc Explainability),指在黑盒模型"做出决策"后,再从模型外部对其逻辑进行近似、对齐解释。具体方法包括:① 局部近似法,在黑盒模型的局部决策边界上训练一个解释子模型,用透明模型近似黑盒逻辑;② 特征属性法,通过遮掩、扰动输入特征,观察输出变化,分析各特征的决策属性、边际贡献度;③ 反事实解释法,分析反事实样本产生截然不同决策结果的原因,揭示关键决策因素。

当前,一系列开源XAI框架如雨后春笋般涌现,如IBM的AI Explainability 360、微软的InterpretML、谷歌的What-If Tool等,为可解释性分析提供了便利工具。同时,可解释性在金融授信、医疗辅助诊断、自动驾驶、法律量刑等高风险场景中正加速落地。相信随着XAI技术的不断突破,AI系统将逐步从"黑盒子"走向"白盒子",用透明赢得信任。

2. 可信AI框架与评估方法

可解释性只是构建可信AI的一个侧面,一个全面的可信AI框架,还需从伦理、社会、法律层面多管齐下,形成"AI全流程、全栈式"的信任基石。欧盟、美国、中国等AI大国和谷歌、微软、百度等科技巨头,纷纷从国家和企业层面,提出可信AI治理框架和评估标准,尽管名称各异,但不约而同地强调了五大原则:

一是透明与可解释(Transparency & Explainability)。AI系统应公开其使用的数据、算法逻辑,接受外部审计;同时应提供决策解释,让用户知其然更知其所以然。二是公平与无歧视(Fairness & Non-discrimination)。AI系统在数据采样、模型训练、结果评估等环节,应主动消除数据偏差和算法偏见,确保不同群体公平对待。三是鲁棒与安全(Robustness & Security)。AI系统应具备良好的容错性和攻击防御能力,确保在恶意样本、算法漏洞等情况下,输出仍然可控。

四是隐私保护(Privacy)。AI系统应保护用户隐私,研发过程应遵循隐私设计准则,落实差分隐私、联邦学习等隐私保护机制。五是人的主导(Human Agency)。AI系统应以人为本,确保人在回路、人机协同,避免"算法主宰人"的反乌托邦。一旦AI输出有误或危及人类利益,要确保人类当家作主,随时可控。

在原则指引下,可信AI的量化评估成为关键。微软提出的可信AI度量框架,从透明解释度、公平正义度、鲁棒安全度等多个维度,设计出规范化的评价指标和测试集,可为政企采信。谷歌的PAIR(People + AI Research)团队则开发了一系列可视化工具,如Facets、Fairness Gym等,帮助工程师主动发现和修正模型偏差,提升AI的可信度。

可以预见,随着可信AI标准的进一步成熟,将形成全社会共识的AI治理规范。届时,每一个进入生产的AI系统,都将经受可信AI标准的检验,以透明、公平、鲁棒、隐私友好、人性关怀的形象,服务于人类。让我们携手共建可信AI,用解释唤醒信任,用道德引领科技,构建人机共荣的美好未来!

结语

放眼未来,数据资产与人工智能的融合之路必将越走越宽广。DaaS让数据流动如"自来水"般便捷,AutoML和智能分析让洞见触手可及,FL和PPC为数据共享插上隐私保护的翅膀,XAI和TAI则以透明和信任,厚植人机共生的根基。在这一进程中,数据资产将被赋予更多智能,成为AI系统的"数据大脑",而AI也将为数据管理披上智能的外衣,让数据驱动的智慧决策在各行各业遍地开花。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业