我要投稿

全球首发｜企业实施AI大模型落地项目指南

发布日期：2024-08-27 08:13:07 浏览次数： 2710

作者：数字开物

微信搜一搜，关注“数字开物”

2024年8月6日，麻省理工学院计算机科学与人工智能实验室主任Daniela Rus全新力作《心灵之镜：人工智能时代的风险与回报》正式发布！

进入下半年，经过持续了1年多的“AI狂热”之后，理性的企业开始全面着手探索AI的能力边界，这本书通过AI七大能力的核心展示，深入探讨了底层技术及其局限性和可能性。与此同时，本书还专门展示了企业实施AI大模型落地项目的12个关键步骤。

以下为《企业实施AI大模型落地项目指南》原文：

当下正在上演的AI革命，与二十年前的数字化变革同样重要。原生AI企业将享有类似于原生数字企业的优势——它们能更快拥抱和部署新技术，从而尽早尝到甜头。而其他企业呢?员工、基建、战略，统统要升级换代。但我可不提倡一股脑儿地采用市场上所有新潮的AI方案。行动太慢，恐落人后;操之过急，问题多多。

成功转型的关键，在于针对企业的特定需求来谋划，设计实施能直击痛点、价值最大化的AI战略，同时引进必要人才，让转型红利始终惠及公司。在这个新时代，人才的重要性前所未有。评估AI如何助力业务时，我建议从任务维度拆分组织各岗位，再考虑AI能否协助、增强或自动化这些任务。

助手ASSIST

这种模式下，AI系统被用来辅助人工操作，帮助实时做出更优决策，让任务完成得更轻松、更快捷。比如说，人虽然也能分析数据，但AI能快速处理海量数据，发现人类分析师可能忽略的规律和洞见，为营销策划、财务预测、运营管理等领域的决策提供支持。

增强AUGMENT

在这里，AI不只是助手，更是一种突破人类极限、全面提升工作效率的法宝。编程助手Copilot就是一个活生生的例子。再比如，创意广告公司越来越爱用"换脸"技术搞事情。百事可乐在印度推出了一支广受好评的视频，知名演员萨尔曼·汗在其中"一分为二";博彩公司FanDuel则用生成式AI给当红解说、前NBA球星查尔斯·巴克利P了个年轻版。换脸版和真人版巴爷躺沙发上侃大山，为品牌站台。两则广告都表明，借助AI，创意团队能搞出多少出其不意、让人拍案叫绝的新花样。不过在我看来，一项医学研究案例最能体现这一点。研究发现，特定诊断任务上AI可能表现优异，人类专家略胜一筹，但当人机联手，效果最为惊艳。实验中(这在我的《芯手相连》一书中也提过)，医生和一个AI系统需要查看淋巴结扫描图像，判断是否患癌。人类医生的错误率为3.5%，AI系统则为7.5%。但通过合作，准确率提高了80%，错误率骤降至0.5%，因为人和机器看待事物的角度各不相同。

自动化AUTOMATE

自动化，意味着AI系统能彻底接管任务，取代人力。这可大可小，从简单的日程安排，到自动驾驶。对于财务、运营等部门，AI无需人工干预就能生成例行报告，保证利益相关方及时获得最新信息。在保险业，创企们正开发自动化数据录入工具，让理赔员从事更有价值的工作。

纵观全局，你得判断哪些任务可归入哪一类。这事儿可不简单，非得雇佣一批新型人才不可:"双语"专才。这里说的可不是那些精通多国语言的家伙。你需要的是既懂AI又懂业务的人。拿我丈夫的公司Coda Metrix来说，他们在把医疗编码自动化。医疗编码是保险报销必不可少的一环，但活儿又细又繁，经常得由医生这样的"大材小用"人士来干。

编码识别和输入，再适合自动化不过了。一则确有可能，二则能给医生腾出宝贵的时间。但这不意味着这门生意好做。医疗编码领域十分小众，实现流程自动化的技术也非常复杂。所以Coda Metrix需要即熟悉医疗编码、又了解AI的人才来测试评估效果。机器做不到百分百准确，当运算充满变数、需要人工接管时，这些"双语"人才就派上用场了。

无论你身处何行，都离不开这样的人才，他们在经济中举足轻重。作为商业领袖，你还得学习这些AI解决方案，营造善学善变的企业文化，多培养"双语"人才，广纳合作伙伴以丰富工具箱和知识库，没准还要跟高校联手，时刻关注新技术动向。你需要了解什么，取决于你在公司里的角色，以及是负责领导、使用、部署，还是开发AI解决方案。

引入AI可不是儿戏。要将理论收益转化为实际效益，需要周密规划、充足资源、对AI目标和局限有清晰认识。

意识到这一复杂性，我和几位同事制定了一套全面的问题清单和行动步骤，为大型机构设计实施AI解决方案提供指引。这是我们面向国家安全领导者和企业开设的系列AI课程的一部分。美国空军退役将军斯蒂芬·威尔逊和麻省理工林肯实验室的黛安·斯塔赫利最先提出，要制定他们口中的"行动蓝图"。麻省理工林肯实验室的阿努·迈恩和罗伯特·邦德将概念付诸实践，制作了蓝图资料，然后我们组团开发了这门课程。随着AI日新月异，学员队伍不断壮大，行动蓝图也在与时俱进。以下内容改编自该模板和课程，让你得以一窥AI落地的诸多细节。目的是帮你确保你的方法不仅技术上靠谱，更要在战略上与业务目标保持一致。首要一问:AI现在是否真适合你的企业?

经济性与战略规划

ECONOMICS & STRATEGY

在一头扎进AI项目前，你得预测成本收益及其未来走向。规模很关键。如果待自动化的任务人手寥寥，费尽心思上AI可能得不偿失。但如果这任务在多个组织或行业中不可或缺，你就可以考虑搞个平台，把服务卖出去。

假设你闯过这第一关，然后呢?

1. 一个目标明确

下一步，搞清楚你希望AI为公司带来什么。比如，用聊天机器人自动化客服咨询，用图像识别系统提高质检准确度，甚至通过分析消费者行为数据挖掘新的市场洞见。你得明确是否真需要AI，必须确信引入AI是为了应对独特挑战的战略举措。

自建还是买现成?这时你得决定，是从供应商那儿买现成的，还是自己动手搞定。"自建还是买现成"的决定，应基于全面评估你的具体AI需求、市场调研、成本效益分析，以及考虑定制方案可能带来的更广泛应用和收益。研究现成AI产品或平台能否满足你的特殊需求时，要考虑兼容性、可扩展性、定制空间等因素。如果市场解决方案稍作调整就能用，买现成可能更高效经济。但如果市面上没有让你满意的，或者得大刀阔斧地改造才能用，量身定制AI方案可能是更好的选择。这样你就可以按需定制，全程把控开发，打造一套完美契合你业务流程和目标的系统。当然，在时间、资源、专业知识上也要下血本。一个有意思的点是，把你量身定制的AI系统做成生意，商业化并卖给其他公司。比如你开发的AI库存管理系统，改进后就能卖给那些严重依赖库存控制的企业，如零售连锁、制造商、物流公司等。这样不仅能开辟新的收入来源，还能把你的公司打造成AI领域的创新标杆。

算算投资回报(ROI)。接下来，你得制定期望路线图，列出具体的可量化目标，包括潜在投资回报率(ROI)。如果实施后只能带来一丁点儿收益，那真不值当。切记:并非所有能自动化的任务都该自动化。有时候，为完成任务而开发或采购AI系统的成本可能高得离谱。理想情况下，在深入一个项目之前，你心里要有这笔AI投资的预期数。

圈定利益相关方。然后，找出谁来使用和管理这套AI系统(包括那些"双语"人才)，谁会从中受益(包括公司内外部的团体或部门)。使用者可能是那些每天和AI工具打交道的员工，比如用AI聊天机器人的客服、用AI驱动分析的数据分析师，或操作AI自动化机器的工人。了解他们的工作流程、痛点和期望，是设计一套能提高工效和满意度的AI系统的关键。别忘了那些管理或监督AI部署的人，他们要负责监控和维护AI系统。在定义系统需求、与现有工作流程的整合、持续管理需求等方面，他们的见解至关重要。

采用AI可不是小事。要把理论收益变成实实在在的效益，需要周密规划、充足资源，还要明白AI的目标和局限。

正因如此，我和几位同事制定了一套全面的问题清单和行动步骤，为大型机构设计实施AI解决方案提供指引。这是我们面向国家安全领导者和企业开设的系列AI课程的一部分。美国空军退役将军斯蒂芬·威尔逊和麻省理工林肯实验室的黛安·斯塔赫利最先提出，要制定他们口中的"行动蓝图"。麻省理工林肯实验室的阿努·迈恩和罗伯特·邦德将这个概念变成了现实，制作了蓝图资料，然后我们组团开发了这门课程。随着AI迅猛发展，学员队伍不断壮大，行动蓝图也在与时俱进。以下内容改编自蓝图模板和我们的课程，让你得以一窥AI落地的种种细节，帮你确保自己的方法不仅在技术上站得住脚，在战略上更要与业务目标保持一致。首要一问:AI现在是否真的适合你的企业?

明确价值定位。对于AI解决方案能带来的独特优势，你得心里有数。要搞清楚这个AI"神器"能做到什么，是其他方案或人力"望尘莫及"的。同时，别忘了好好琢磨可能带来的客户体验。(老实说，那些笨手笨脚的聊天机器人和机械化的电话服务真让人抓狂。)找准了需要改进的地方，就得想办法把AI技术的优势发挥到极致，看看是用来帮忙、锦上添花，还是全盘接管。

选对搭档很关键。接下来要明确谁来参与你的AI项目。谁来帮你把现成的AI应用改造成你想要的样子?谁来为你量身定制全新的AI方案?此外，你还需要确定谁将与你携手组建高效的人机"梦之队"。别忘了明确谁来评估AI计划的方方面面，包括范围、安全性和道德问题，以及谁来负责数据的全生命周期管理。数据共享的规矩得定清楚，包括谁能碰这些"金子"，还得有专门的团队或"大佬"来掌舵，及时解决可能冒出来的各种问题。

别以为引入AI就是装个新软件那么简单。这可是个"厉害角色"，会影响你的整个"江山"和所有"子民"。除了培养一帮既懂业务又懂AI的"全能选手"，你可能还得找"大牛"帮忙。他们能帮你设计、组建和维护一支能跟AI"眉来眼去"的队伍。这支队伍得有"十八般武艺"，重点是要安全、高效地驾驭AI，让公司和员工都能"吃香喝辣"。

怎么知道AI是不是"中看不中用"?我们上课时说过，得有一套全面的"考核标准"。先想想怎么衡量AI的能力，比如准不准、快不快，还有对业绩有多大帮助。说到人机合作，得看看AI能不能让团队更给力、决策更靠谱、大家干活更开心。AI做决定得公平、透明，还得合规。数据质量可是AI的"命脉"，得有靠谱的招儿来验证数据，经常查漏补缺。还得从安全性、可靠性、公平性、可解释性和稳定性这几个方面给AI来个"全身体检"。可能需要定期"复查"，看看有没有"偏心"，能不能经得起各种"风吹雨打"。

要让大家接受和支持AI可不是件容易事。有些AI工具可能很快就能上手，但要来个彻底的"大变身"，往往得啃一些又硬又难啃的骨头。光说AI多厉害可不够，你得让人看到AI怎么能帮公司实现目标，解决问题，抓住机会，还得说清楚对员工有啥影响。别小看了实施的难度，有时候可能还得搞些"高科技"设备，我在第15章里可是说得明明白白。

你得掂量掂量，现有的家当够不够用，能不能支撑AI这个"大胃王"。不行的话，是得自己添置"硬货"，还是找个"云端"托管?最重要的是，别忘了考虑人的因素。员工肯定想知道，这AI会不会抢他们的饭碗。你得让用户群体接受这个新来的"成员"。可能得找些"拥护者"，好好沟通，解释为啥要用AI，怎么能让公司和用AI的人都能"鱼和熊掌兼得"。

风险可得想清楚。用AI可能会有啥坑，有啥短板，都得摸清楚。数据质量和代表性可重要了，得找"行家里手"好好查查，看看训练数据有没有"偏心"，会不会"死记硬背"，能不能适应"千变万化"的情况。这事儿可关键了，因为数据质量直接影响AI的表现和公正性。如果训练数据不能反映"真实世界"，AI可能会"走火入魔"或"以偏概全"。还得想想可能会出现啥意外情况。比如说，客服聊天机器人可能搞不定复杂的问题，反而把客户惹毛了。得有招儿及时发现和解决这些问题，必要时还得让人来"救火"。数据保护和隐私也得考虑到，得建立"铜墙铁壁"。你得清楚项目需要啥数据，有没有权限用这些"宝贝"，不管是用自己的设备还是"云上漫步"。别忘了想想对环境的影响，这些AI可能是个"电老虎"。在训练和使用AI时，网络安全措施得跟上，防止数据被"偷梁换柱"或"窃听"。

组建一支既懂业务又懂AI的"全能战队"可重要了。我怎么强调都不过分。培养这样一支能驾驭AI的队伍，对成功简直是"一锤定音"。

部署得好好规划。得想清楚怎么处理人的问题，怎么解决道德问题，还有技术上需要啥。让人和AI好好"携手共进"可不容易，得设计好用的界面，好好培训员工，定清楚人机互动的"规矩"。AI做决定得公平、不带偏见，过程得"透明如水"，还得尊重隐私和数据保护法。你还得算算需要多少算力、存储空间和网络带宽，保证AI能"行云流水"般运行。

数据战略也得有。得想清楚需要啥数据，怎么收集 - 是不是得一直"开着水龙头"，还是定期收集，或者就收集一次。收集来的数据怎么处理，怎么用来"喂养"AI。数据存储和管理得安全，还得合规，而且要能根据AI的需求随时"变脸"。得防着有人篡改数据。让最终用户参与开发挺重要的，这样能确保AI真的能解决"痛点"。考虑一下数据是不是需要贴标签，能不能用模拟数据来训练。搞点"红队"活动，测试系统的"抗压能力"。把AI的开发安全运维和传统流程"珠联璧合"，确保开发过程安全顺畅。

资源需求得摸清楚。不同类型的AI功能，需要的基础设施和资源差别可大了。企业级的AI可能需要"神级"的数据处理和存储能力，来应对"海量"的业务数据。而用于运营的AI可能更需要"闪电般"的处理能力和边缘计算资源。项目的依赖关系会影响时间表。比如说，如果AI需要和现有的企业系统""打成一片"，那这些系统是否就绪、是否兼容就成了关键。如果需要外部供应商提供特殊的AI组件或数据，这也会影响进度。

别忘了给员工培训和支持"留点钱"，这对提高人机团队的效率很重要。如果AI需要直接和人"对话"，可能还需要特殊的"装备"，比如生物识别传感器或定制界面。像是用于自然对话的语音识别系统，或者能监测人体反应、让AI更"懂人心"的可穿戴设备。获取数据的时间也是个大问题。这取决于数据有多容易"到手"，以及收集、清理、整理数据需要多长时间。最后，你得算算开发AI需要多少"算力"，这取决于AI模型有多"高深"，要处理多少数据，还得考虑训练模型要"烧"多少钱。现在这成本可不低，有时候高得让人"望而却步"。不过，随着时间推移，可能会"亲民"一些。

最后，你得想清楚在哪些环境下测试、评估、验证这些功能。找内部专家或外部合作伙伴来处理这些问题太重要了，我怎么强调都不过分。记住，在AI这条路上，"独行快，众行远"。有了靠谱的团队和合作伙伴，你的AI之旅才能"一帆风顺"。

2. 收集和准备数据

完成这个严格的初始阶段后，你就该考虑如何将计划付诸实施了。首要任务是收集符合所有监管、法律和合规要求的相关数据。虽然有许多技术工具可以辅助这一步骤，但你仍需要合适的人才来监督整个过程。

3. 选择合适的AI模型

这个决策不能仅靠简单的网络搜索来完成。你需要具备专业知识的人才来协助你选择一个最符合需求的模型——既要满足成本要求，又要符合可持续发展原则。

4. 执行开发和训练

获得更大规模的数据后，你需要将数据划分为训练集、验证集和测试集三个部分，然后开始模型训练。典型的数据划分比例为70%、15%、15%。

5. 模型评估

训练和验证完成后，你需要确认模型的实际效果。这就是测试数据集的用途所在。这里有几个重要的评估指标，包括准确率、F1分数(精确率和召回率的调和平均值)和均方根误差(RMSE)，这些指标可以帮助你评估机器学习模型预测的准确性。

6. 部署实施

如果模型通过了评估测试，你就可以开始将它整合到先前定义的流程中，无论你的目标是协助、增强还是自动化某项任务。

7. 持续监控，定期维护

这不是一个"设置后就可以忘记"的操作。这些智能系统能够学习和改进，但也可能犯错，因此持续监控至关重要。此外，你的业务环境会变化，市场趋势会转变。因此，你需要不断监控、更新，必要时重新训练模型。

8. 迭代优化

你应该制定政策和最佳实践，定期重新评估模型的性能及其设定的目标。你的目标是让解决方案随着与实际数据的交互而不断改进。

9. 评估偏见和公平性

虽然你会在数据编译的早期阶段就考虑偏见和公平性问题，但这应该是一个持续关注的领域。你部署的任何AI解决方案都必须符合道德标准，不存在偏见。理想情况下，你希望模型的决策过程是透明的。

10. 沟通与教育

从最终用户到管理层，你的所有利益相关者都应该理解AI如何以及为什么被引入你的业务。对AI的担忧是真实存在的，错误信息也很普遍。你越能帮助组织内的人理解你选择的工具及其设计目的，效果就越好。

11. 建立反馈机制

你的团队成员将亲身体验AI解决方案在实际操作中的表现，因此你需要建立机制和沟通渠道，让用户或系统能够对AI的预测或决策提供反馈。这些反馈将有助于你改进和优化AI模型。

12. 长远规划

这不是一个快速或简单的过程。然而，遵循这些指导原则将增加你成功高效实施的机会。同时，每个应用领域可能都有其特殊性，因此灵活性和适应特定情况的能力也很关键。

让我们看一个具体例子:假设你正在管理一家医院。你面临的一个长期问题是患者再入院。当患者出院后30天内再次入院时，这不仅增加了医疗成本，也可能给患者带来额外的经济负担，同时暗示着护理质量可能存在问题。因此，你希望运用AI来预测患者在这个时间段内再次入院的可能性，从而改善医疗服务质量。

1.明确目标:你的目标是识别那些高风险患者，并在他们再次入院之前采取干预措施。

2.数据收集与准备:首先，以电子健康记录(EHR)作为你的数据源。考虑到这些数据的敏感性，需要实施严格的安全措施，包括强加密以及定期审计。数据还需要经过清理，并评估可能存在的偏见，必要时进行重新平衡以确保数据集和模型本身的公平性。

例如，如果预测模型主要基于大量低收入患者的数据进行训练，而这些患者可能无法获得充分的药物和其他医疗资源，那么在预测再入院风险时可能会出现偏见。如果这些条件导致训练数据中再入院率偏高，模型可能会高估低收入患者再入院的风险，因为它从一个不均衡的数据集中学习，其中这个群体的再入院率不成比例地高。这种偏见可能导致模型对某些群体做出不公平的预测，影响医疗资源的合理分配。

3.选择合适的AI模型:不同类型的数据和任务需要不同类型的模型，每种模型都有其独特的优势和局限性。EHR数据可能包含复杂的关系——例如，各种症状、病史和用药如何相互作用可能导致某种结果。简单的线性模型可能无法捕捉数据中更深层次的非线性模式。

应该考虑更高级的模型，如梯度提升机或深度神经网络。梯度提升机是一种机器学习模型，它通过顺序构建决策树的集合，每一个新树都试图纠正前一个树的错误。这种方法特别擅长处理复杂的非线性关系。另外，深度神经网络可能能够识别简单模型可能忽略的数据中的非线性关系和模式。

4.执行开发和训练:接下来，你应该将数据集划分为训练集、验证集和测试集，然后开始在训练集上进行模型训练。

5.模型评估:在这一阶段，你需要使用适当的指标评估模型性能。对于这种情况，受试者工作特征曲线下面积(AUC)是衡量模型有效性的良好指标。

6.部署实施:现在将模型整合到医院的IT系统中。这里是跨学科人才发挥重要作用的地方，因为他们能够将对模型的技术理解与对病例和整个医院运营的洞察相结合。

7.持续监控，定期维护:模型投入使用后，需要持续衡量其预测的有效性，并根据需要进行重新训练。

8.迭代优化:假设研究发现某种特定药物与较高的再入院风险相关。你需要更新模型，使其能够更准确地将使用这些药物的患者识别为潜在的再入院高风险群体。

9.评估偏见和公平性:模型不得对任何患者群体产生歧视，因此这些检查需要定期持续进行。这不仅是道德要求，也是确保模型在各种人群中都能准确预测的关键。

10.沟通与教育:医务人员需要接受新AI工具的培训，以更好地理解其预测结果和相关干预措施。这些跨学科人才有助于确保所有相关人员，包括医院领导层，都能及时了解情况。

11.建立反馈机制:医护人员需要跟踪并报告模型的有效性和影响。这种持续的反馈不仅有助于改进模型，也能帮助医护人员更好地理解和信任AI系统。

12.长远规划:像这样的工具可能不会立即产生显著效果，因为它需要随时间优化和重新训练，而且医院工作人员和医疗专业人员也需要一定的学习适应期。但是，如果整个组织都能积极支持，医疗专业人员致力于提供反馈来帮助训练和改进模型，那么我们可以预期你的医院将在一年内看到30天再入院率显著降低。

这不仅展示了AI的有效实际应用，还会对所有参与者产生积极影响，从批准项目的管理层或行政领导到利用该工具改善患者护理的医疗专业人员。更重要的是，它能够提高医疗质量，减少不必要的再入院，从而使患者受益并优化医疗资源的使用。

在整个过程中，重要的是要记住AI是一个工具，它的目的是协助、增强或自动化某些任务，而不是取代医疑专业人员的判断。通过正确的实施和持续的改进，AI可以成为提高医疗质量、改善患者预后的强大助手。

术语解释:

红队:由专家组成的团队，负责测试系统的安全性和可靠性，通过模拟攻击来发现系统的潜在漏洞。

DevSecOps(开发、安全和运营):一种软件开发方法，将安全性整合到整个开发和运营(DevOps)生命周期中，强调在开发过程的每个阶段都要考虑安全性。

分数:机器学习中用于评估分类模型准确性的指标，是精确率和召回率的调和平均值。在类别不平衡的分类问题中特别有用。

均方根误差(RMSE):衡量定量数据预测误差的标准方法，计算为预测值和实际值之间的平方差的平均值的平方根。

受试者工作特征曲线下面积(AUC):用于评估分类模型性能的指标，在机器学习中常用于评估模型预测二元结果的准确性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业