我要投稿

工业企业搞大模型的几个常见误区

发布日期：2024-06-13 05:14:12 浏览次数： 2861 作者：里聊智造

如今，很多大型集团不去搞个工业大模型都不好意思跟别人打招呼。但大模型怎么搞，搞成什么样，很多人可能也还在雾里看花。作者这里结合对市场上供应商和工业企业目前探索的情况的研究和观察，列举几个可能的潜在误区及其解释，供大家参考。如有理解不当，也欢迎大家批评指正。

大模型只是大语言模型——大语言模型只是工业大模型的一种，其它还有大视觉模型、多模态模型、控制模型等，这些专业模型价值可能更大

大模型是无用的或万能的——新的技术出来时，其作用总是很容易被很多人寄予非常高的期待，但经过一段时间的测试，大家发现技术还达不到期待，又会很快的将新技术视为啥也不行，纯纯的炒作。但事实上，由于很多技术落地成熟需要一定的时间和探索，因此其效果可能是介于过高和过低预期之间的，即未来会有一定的有用，但没有那么通用，长期会有一些场景有价值，但短期能看到的高价值场景不多。

在搜索、知识管理、安监视觉检测这3个方向上，大模型技术本身就是相对之前技术的更先进的技术路线升级，这3个场景在企业内本身过去也就有应用，以后新的应用逐步升级到基于大模型的技术路线是很自然的事。至于其它的方向，基于大模型的知识问答、内容生产、数据分析等，其价值确实长期才会更明显。

此外，大模型用的好不好，跟企业的数据基础也有很大关系，数据基础不好，或者发展阶段还不到的企业，可能的确难以通过大模型取得太多的进展，这类企业可能主要工作还是在各项系统建设、数据治理、数据打通等方面。

应用大模型主要用于打造懂工业核心知识和经验的专家系统——这确实大家对于大模型的期待，但这也是最难的部分，当前更多也还可以从经营管理的方方面面探索应用大模型，如人力、运营数据分析、财务、办公、文档管理等，让各个业务线人员对大模型有更深入的理解，从而由他们提出更具价值的大模型应用场景。

海量行业知识训练就能让大模型搞懂工业各种知识——哪怕是一个学习能力很强的大学生，直接面对工业的各种实际知识，可能也是一脸懵逼，更别说推理能力差的多的大模型了。大模型的用法目前主要用法还是把企业已有的知识用起来，以及作为降低重复劳动的工具，还不能对其智能化和行业知识方面有太高的期待。

海量数据预训练是用大模型的必然基础——当前的大模型的主流应用模式是RAG，也就是让模型从配置的知识库找答案并回答问题，这个过程应用的模型的能力主要是语文的理解和总结，并不需要模型本身具备强的行业知识本身。把全量企业、行业数据先放进大模型做预训练，再在此基础上做各种微调，开发应用这条路投入高，难度大，产出低：企业需要海量算力和时间，很大难度的跨组织数据收集，但训练出来的模型并不能直接给业务人员帮助，输出结果还可能并不准确

当然，由于各行业有很多专有名词，让模型首先能够正确理解包含专有名词的问题还是非常有必要的，这部分可以通过一些指令微调等方式实现。如果进行了数据的预训练，效果当然会更好。

从产业层面，当前更合适的路径，是一些行业专业供应商基于行业数据对模型做预训练以及各种微调，之后将具备一定行业知识的大模型部署到企业内，在企业内结合企业的知识库，用于各种问答等应用。这样投入较高的数据预训练工作在供应商这侧完成，分摊到各个企业，简化了企业应用大模型的投入。

目前大模型正在发展的另一个核心技术路径是Agent，也就是让模型像人一样把一个问问拆解成一步步，在每一步去做数据查询或业务系统API调用，由模型自动完成这样一个序列的过程的执行并给出结果。这一过程更多实在积累数据，Agent做出来，每次人是怎么操作的，结果如何，这些数据积累起来，用作以后模型的输入，方能训练出具备较强自动处理能力的大模型。

应用大模型的门槛非常高——如上文提到，对算力要求很高的模型预训练过程，很多企业应用大模型时并不需要自己做，因此也就不需要建设配套的算力设施，只需要一个能够运行预训练好的推理模型的低AI算力设备就可以使用大模型的应用。当然，对于一些基础好的大型集团，如果有非常多的业务场景和数据，都需要做模型的微调，也还是需要一定的算力建设。

先做行业全域大模型再做场景化模型——即便市场上很多供应商和工业企业讲到的他们建设了一个行业大模型，实际也都是从某一两个场景切入的。行业大模型不是一开始就能构建出来的，从细分场景切入，逐步向更多场景和行业内拓展，最终才能成为一个行业大模型。

预测类应用还是得靠机理模型、数理模型——由于大模型其并未真正理解和具备行业知识，因此对于需要寻找未知规律的很多数据价值挖掘和预测层面的工作，很多时候的确还是需要依赖过去的小模型和机理模型进行预测，在需要时由大模型调用。边缘的AI的场景，由于需要近实时的计算但算力设备有限制，目前大家应用的主要也还是小模型，还在探索大模型在边侧的部署。

有些需要将人的经验沉淀下来的工作，却也可以通过大模型去实现。例如设备的故障分析，工厂有些老专家可能并不一定完全弄懂了原理，但凭借经验就是可以给出故障原因。将老专家每次故障的背景数据和分析的问题原因作为问答对对模型进行训练，也能让模型遇到类似故障时，模拟过去老专家给出相对靠谱的原因分析。这个路线避开了复杂的原理分析和建模，可以训练出一个不可解释，但多数情况下可用的设备故障分析模型。

先在行业内用数科公司搞起大模型，以后可以向行业推广挣钱——能挣钱，但挣大钱恐怕难。大模型一段时间内，注定是行业头部企业为主在搞，很多行业内头部企业各自在让数科公司搞，中小企业用不到不会买，同行互相肯定谁也不会买对方的。

更核心的是，AI在工业的应用场景碎片化非常明显，大模型沉淀的企业核心经验难以迁移到其它企业直接复用。虽然工业AI的确有明确的市场，但是看看目前为止专做工业AI的服务商，大量都做不大或者不挣钱，就知道这条路并不好走。