我要投稿

【数智化案例展】立臻科技——大模型助力制造企业数据智能化

发布日期：2024-07-09 08:44:51 浏览次数： 2592 作者：数据猿

立臻科技作为头部智能手机主要代工厂，在苏州拥有两座智能化工厂，年产值过千亿元，年聘用员工达数十万余人，设备和人构成了公司最重要的核心资产。立臻科技目前拥有IT研发人员超过200余名，已经构建了相对完善的数据治理体系以及完整的数据平台，在智能化方面，也率先落地了包括视觉质检、预测性维护、智能生产排程等智能化场景。

随着大模型的发展，立臻科技意识到可充分借助大模型的能力，全面提升公司的数据智能化建设，并接触多家业界一流的AI公司和一流的科研团队，枫清科技（Fabarta）通过与立臻科技的多次交流，其在大模型领域的产品建设、全部大厂的团队背景以及落地理念，深得立臻科技认可，并于2023年末正式达成合作关系，目前相关合作正在按计划推进中。

在制造行业，典型的劳动密集型特征导致了高流动率。这一行业面临的挑战不仅限于人力资源管理，还包括生产技术文档的复杂多样性和设备数据的海量生成，但这些数据往往难以直接转化为有效的决策支持。

立臻科技面临的问题和挑战促使他们希望通过智能系统来改进解决。首先，集团每年管理数十万名作业员，管理层充分认识到对一线作业员进行有效的管理和关怀对提升生产效率、控制成本至关重要。集团高层将员工管理比喻为一座潜力巨大的矿山，需要深入挖掘。其次，制造行业的设备知识库现状复杂，知识难以共享和利用，导致信息孤岛现象的形成。因此，建立统一的知识管理系统成为必然选择，以提升整体生产水平和技术创新能力。第三，制造核心环节急需智能化制造决策支持系统。通过充分利用设备数据、生产技术文档和行业知识，实现从数据到决策的有效转化，将大幅提高生产效率和产品质量水平。通过这三方面的深入改进，枫清科技（Fabarta）联手立臻科技致力于通过大模型来提升管理效率和生产效益，助力制造行业实现智能化转型，迈向更加高效和可持续的发展。

时间周期：

开始时间：2023.9

截止时间：

节点1：初步构建大模型知识中台，覆盖人力资源文档数据管理 2024.2

节点2：初步覆盖生产制造知识管理，构建厂内制造业大模型，并初步对接数据平台数据 2024.6

节点3：全面覆盖生产制造数据，扩大结构化数据对接，基于智能体和大小模型等，选择部分场景实现制造领域智能决策（进行中，2024.9）

节点4：全面对接数据平台，并构建相对完善的大模型知识中台，覆盖结构化和非结构化数据，对接已有大小模型，可基于该平台体系化落地更多业务场景（2024.12）

数智化需求

立臻科技具备业界领先的工厂智能化建设和领先的科技人才队伍，目前公司已经具备完善的数据平台并已落地大量智能化场景，在制造业中企业中，具备领先的数智化发展水平。

公司目标是能够借助大模型的发展，能够全面利用已沉淀的结构化和非结构化数据，改变过去点状落地智能化场景的方式，希望能够体系化全面落地智能化能力，全面提升智慧工厂建设，不断提升公司的智能化竞争力。为此，立臻科技制定了分布三步走的策略：第一阶段，围绕人力、财务等支撑性领域，率先进行大模型落地实践，构建初步的应用场景，并搭建大模型落地支撑平台；第二阶段，打通已有数据平台，全面覆盖生产制造数据，并借助大模型提升数据使用体验，并提升部分生产制造业务场景智能化；第三阶段，基于融合后的大模型平台和数据平台，并结合已有大小模型和智能体建设，平台化全面落地智能化场景，提升工厂智能化建设。

当前，枫清科技（Fabarta）同立臻科技一道，已顺利完成第一阶段建设，已实现对人力资源多个智能化业务场景建设，并迈向第二阶段，打通数据平台，并覆盖生产制造相关数据。每个阶段对数智化的需求总结如下：

阶段一：初步构建大模型知识中台，覆盖人力资源文档数据管理

制造行业以劳动密集型为主要特征，员工流动率高。集团每年管理数十万名作业员，一线员工的管理和关怀直接影响生产效率、成本控制和整体效益，亟待通过大模型技术进行深入挖掘和优化。从支撑性业务开始，通过大模型对一些基础系统的智能化升级，比如规章、制度、薪资、休假、奖惩等信息的问答，取代原有的靠人力去做一对一的服务，极大程度的释放了支持性岗位的基础性、重复性工作，实现在支持性职能岗位人数不变的情况下可以更好的支持集团的扩厂扩线。

阶段二：初步覆盖生产制造知识管理，构建厂内制造业大模型，并初步对接数据平台数据

在第二阶段，立臻科技的目标是实现生产数据的全面整合和智能分析，从而提高生产效率，降低运营成本。通过使用大模型的能力，让数据的出口不再局限于BI系统，而是可以靠灵活的自然语言交互的形式实现，全面降低用数、取数的门槛，提供数据智能在更广泛的业务用户、生产用户的覆盖度。

阶段三：全面覆盖生产制造数据，扩大结构化数据对接，基于智能体和大小模型等，选择部分场景实现制造领域智能决策

制造企业多模态数据沉淀庞大：结构化数据以BI系统为代表，已经实现一定程度上的数据智能；而对于非结构化、半结构化数据的分析与决策还在非常早期阶段，大量数据依然沉淀在冰山之下无法产生业务价值；多模态融合的决策智能可以进一步放大数据融通后的价值，提供更多的决策支持。

对于结构化数据，制造企业在设备产生的环境所产生的数据量非常庞大，但难以直接从数据中得出有效的决策。不仅仅需要一套数据平台来解决数据的可见、可控，同时针对不同数据的业务含义、业务诉求进行智能的分析和决策。通过知识驱动的决策系统，立臻科技将打造智能制造决策大脑。综合利用设备数据、生产技术文档和领域知识，实现从数据到决策的智能转化，提升生产效率和产品质量。通过这一系统，企业将能够在复杂的生产环境中做出更加准确和高效的决策，全面提升智慧工厂的建设水平。

面临挑战

面对当前企业面临的多重挑战，首先需要深入分析和解决的是员工管理方面的困难。

随着企业规模和厂区扩大，员工管理难度显著增加。即便是细微的管理失误，也可能导致员工离职，从而直接影响到生产排产计划的执行效率和稳定性。这种影响不仅仅限于人力资源的重新招聘和培训成本，更涉及到生产线的稳定性和运行效率。因此，有效的员工管理和保持员工稳定是当前企业急需解决的首要问题之一。

其次，随着企业规模的扩大，管理成本也呈现出线性增长的趋势。这不仅包括人力资源管理的成本，还涉及到管理工具和系统的投入成本。传统的管理方式往往无法有效应对规模扩大带来的管理挑战，需要引入更为智能化和系统化的管理解决方案，以降低管理成本，提升管理效率和准确性。

此外，企业在员工个性化需求满足方面面临的问题也不容忽视。现有系统往往缺乏足够的灵活性和个性化定制功能，难以有效地满足员工多样化的需求。特别是一线作业工人文化水平不高，对于普通IT系统的操作和利用能力有所限制，需要更加简化和智能化的系统设计，使其能够轻松适应员工的操作习惯和能力水平。

面对制造业的多模态数据分析挑战，企业面临着复杂的数据处理问题。

制造业中产生的数据通常是多模态的，包括非结构化和半结构化数据，这些数据的分析与决策支持仍处于早期阶段。传统的数据分析方法可能无法有效地整合和分析这些多样化的数据类型，导致信息孤立和决策效率低下。特别是在生产过程中，涉及到从设备传感器收集的实时数据到质量控制记录，再到供应链管理中的物流数据，这些数据来源广泛且类型不一，如何实现数据的统一管理和分析成为制造业面临的重要挑战之一。缺乏有效的数据分析和决策支持系统，企业难以从这些数据中准确提取有价值的信息，并据此进行即时的生产优化和战略调整。

通过大模型帮助企业获得高质量数据后，进一步就是如何利用大模型对通用知识的理解能力，配合专有制造业模型对特定场景垂直的推理能力，让大模型结合业务场景、系统需要自主的选择合适的小模型，充分发挥各自的优势，提升系统整体决策的能力。

数据支持

在立臻科技联手枫清科技（Fabarta）的大模型落地中，数据处理涉及多个关键方面，每个方面都对最终分析和应用结果至关重要。

对于非结构化数据的解析，这类数据通常包含多种格式和来源，例如各种生产制造的知识库中的文档、文件等，其中也具有复杂的内部结构和关联关系。通过数据解析技术，可以有效保障上下文的完整性，确保从数据中提取的信息不失真或遗漏重要细节，相较于传统的简单切片方法，效果显著提升。以图片数据的理解与识别为代表，大量的多模态数据需要准确的解析和识别。利用计算机视觉技术，可以从图片中提取关键特征，并进行模式识别和分类，对于质量控制、产品监测和工艺优化具有重要意义。

对于关系型数据的元数据补齐，这对于大型数据模型的正确理解至关重要。通过为数据库中的表和字段添加业务含义的元数据，可以提升大模型对业务逻辑的理解和预测能力，进而优化数据分析和决策过程。元数据的丰富性和准确性直接影响到数据分析的质量和结果的可信度。

对于多模态数据的融合分析，元数据规范和统一是大模型落地的基础，元数据让大模型知道应该用到哪些数据提供对应服务。通过元数据过滤，提升大模型问答筛选范围，提升问答精准度；通过元数据，为智能BI场景提供数据基础。元数据为大模型提供了很好的语义层支持，在准备好高质量数据和语义层之后，需要能够有好的体系能链接大模型和数据。枫清科技（Fabarta）通过多模态数据引擎来统一存储数据和元数据，并构建面向大模型的统一记忆体，同时还借助系统内置的问数、问指标类工具，快速方便用户去获取和分析数据，并积极尝试借助智能体来串联大小模型，使得用户不仅仅是能便捷取数、用数，还能够借助模型的能力结合业务做进一步的数据分析，帮助客户来做决策。此外，枫清科技（Fabarta）还提供了低代码化能力，能够便捷的将数据价值嵌入到已有业务系统或者快速构建AI场景应用，加速推动基于数据驱动的AI能力落地。

综上所述，数据处理的复杂性和技术挑战需要综合运用先进的数据解析、识别技术以及元数据管理策略，以确保从数据中获取的信息准确、全面，并能够有效支持业务决策和创新。

应用技术与实施过程

枫清科技（Fabarta）企业知识中台，旨在链接大模型和企业数据，帮助企业全面化落地智能场景。在当前与立臻科技的落地实践中，率先从人力资源场景切入，既面向普通员工提供终端自助服务，同时还面向人力资源专员提供智能化的知识检索和智能问数等体验。这项服务能够与各种业务场景进行对接，包括不同厂区的巡检机器人机器人，以及舆情对话场景。企业知识中台在立臻本地环境中部署，集成了Text2api、Text2sql、多格式文档解析等关键技术组件。此外，还包含了基于大模型的问答服务、文档权限管理、知识运营和知识管理等高级功能。在技术落地的过程中，其核心技术点总结如下：

知识解析与术语理解

在制造业的实施中，知识解析和黑话理解是关键的技术支持。通过将文档结构解析为图谱结构，大模型能够更好地理解文档中的关联性知识上下文。这种技术不仅提升了回答准确率，还能够快速提取和理解复杂的制造业术语和企业内部用语。例如，通过同义词机制维护行业术语，大模型能够在处理实际作业时更精准地理解和应用专业术语，从而提高生产效率和准确性。文档知识管理和问答知识管理是智能对话服务的重要组成部分，它们允许用户通过对话形式访问和管理知识库，从而提高信息检索的效率和准确性。这种管理方式不仅优化了用户与系统之间的交互，也为知识共享和再利用提供了便利。

在大数据量情况下，传统的RAG（Retriever-augmented Generation）召回系统往往面临召回范围过广、回答干扰信息过多的问题，直接导致回答不准确。这在制造业中尤为明显，因为制造业的数据种类繁多，既包括结构化数据（如生产设备的实时运行数据），也包括非结构化数据（如设备的维护手册和操作指南）。为了应对这些挑战，本项目采用了统一语义层增强的多模态知识融合技术。将结构化数据和非结构化数据进行融合，构建了一个统一的语义层。这个语义层能够理解并关联不同类型的数据，从而在回答问题时提供更加精准和全面的信息。通过构建语义关联拓扑，可以在设备类型、生产商和文档信息之间建立紧密的联系，确保每个回答都基于最相关和最新的知识。通过这种多模态知识融合技术的应用，本项目显著提升了回答的精准度，解决了传统RAG系统中回答不准的问题，并且实现了对知识本身的扩展和深化。

智能问数技术

通过理解自然语言查询并将其转换为SQL查询语句，极大地提高了从数据库中提取信息的效率。使用统一语义层的方式，将多模态异构数据源的元数据进行集中管理，帮助大模型更好的理解不同业务含义所对应的元数据信息，同时通过动态提示词的方式，将特有的业务含义及其思维链放到大模型的记忆系统中，使之可以更灵活的满足不同业务场景对查数、取数、分析的需求。这项技术不仅减少了人工编写查询语句的时间和劳动，而且降低了技术门槛，使得非技术人员也能通过自然语言与数据库进行交互。这促进了数据分析的民主化，并支持企业更快地获取数据支持，做出更加精准和及时的决策。

随着语义层的加入，系统的智能化程度得到了显著提升，特别是在SQL准确率方面。这种提升可以从几个不同的层面来理解。首先，LLM（Large Language Model，大型语言模型）的原生理解力，也就是它在没有额外语义信息的情况下对自然语言的理解能力，大约在30-50%的准确率。然而，一旦引入了基础的语义信息，比如字段级的语义描述，这个准确率可以提升到大约70%。进一步地，当引入基于语义的业务含义描述，也就是表级语义描述时，准确率可以进一步提高到85-100%。

在这个过程中，数据归因与分析起到了关键作用。这涉及到对数据的理解，包括字段级和表级语义的描述，它们分别代表了数据的业务逻辑和更宏观的数据含义。例如，一个字段可能代表某种特定的能耗数据，而一个表则可能包含了整个组织级别的能耗数据。通过这种层次化的语义描述，系统能够更准确地解析用户的问题并生成相应的SQL查询。

具体到用户问题的处理，例如用户询问“今年的总能耗是多少？”时，系统首先需要解析这个问题。这涉及到对问题中关键词的理解，比如“今年”和“总能耗”，以及它们在业务上的含义。在这个例子中，“今年”指的是从年初到当前日期的时间范围，“总能耗”则涉及到对特定字段，如year_total_quantity_coal的求和操作。接下来，系统需要确定数据来源，比如从哪个表中获取数据。在这个例子中，数据来源于energy_composite_basic表。然后，系统需要根据业务逻辑构建SQL查询，这通常涉及到对特定条件的筛选，比如时间条件（今年）和组织类型（org_type=1），以及对特定字段的聚合操作，如求和。

此外，系统进一步利用Dynamic few shot learning（动态少样本学习）和COT（Chain of Thought，思维链）技术，进一步提升系统对用户问题的理解和SQL查询的准确性，尤其是在数据质量受限的情况下。

最终，不仅仅是技术层面的实现，它还涉及到决策的落地与自主执行。这意味着系统不仅要能够理解用户的问题并生成正确的SQL查询，还要能够将这个查询执行并返回结果，从而实现从理解到执行的闭环。通过这种方式，系统能够为用户提供更加智能化和自动化的数据查询服务，实现问答是的关键词模糊匹配、字段级澄清反问、智能图表生成、分析摘要总结等特色能力。

智能工具调用技术（大模型调小模型）

通过理解自然语言描述的需求或指令，并将其转换为相应的工具调用（小模型服务），实现了业务流程的自动化和用户友好的交互体验。这项技术有助于提升用户体验，因为它允许用户通过自然语言与应用程序交互，而无需学习复杂的操作流程或API使用方式。同时，它也为企业提供了一个创新服务模式，通过开发基于自然语言的接口服务，增强了企业的竞争力。

在工具的选择和调用阶段，该系统通过对任务相关的领域知识进行多模态召回，以此进一步理解和确认任务意图，并最终匹配到对应代理工具的执行策略上，实现基于上下文领域知识的工具精准调用与执行。在召回阶段通过：1）多路向量、关键字融合召回等方式，确保最大范围的收集意图任务相关的上下文信息；2）通过问题改写、RRF倒数排序、reranker模型等方式，实现对意图的最终排序，确认意图与已有知识的匹配优先级。

在意图识别阶段通过：1）链路并行机制进行大模型意图确认；2）当意图存在歧义和关键信息缺失时，则会利用澄清反问机制进行意图的再确认，直至大模型认为已经完全理解任务意图（或放弃）。

其他技术点

企业级权限控制：在多厂区、多级别和不同角色的用户环境中，权限控制是必不可少的。系统根据用户的角色和权限，提供定制化的答案，确保用户能够无感知地获取符合其权限范围内的知识。例如，高级别管理人员可以获取更深层次的企业战略信息，而现场工作人员则能够获得与其操作任务相关的实用信息，从而有效支持各级别人员的决策和操作。

混合LLM使用，兼顾推理能力与企业数据安全：结合公网大参数量模型的推理能力，与内网数据安全的需求是制造业智能应用的重要考量。混合LLM使用策略能够有效地应对复杂的场景需求，例如大规模问答、智能体工具调用等。通过确保敏感数据不出内网，同时灵活选择不同链路上使用的大模型，企业能够在维持数据安全的同时，充分利用大模型的强大推理和处理能力，提升生产效率和智能化程度。

超级入口：超级入口技术使智能体能够自动识别用户意图，并根据不同的对话场景无需显式切换不同的对话应用。这种技术提高了用户体验，使得用户能够更自然地与系统交互，无论是查询数据、执行任务还是获取建议。

超级入口的智能策略和自动匹配能力，为制造业提供了高效的操作和管理工具，进一步提升了生产流程的智能化水平。

商业变化

随着一二阶段的合作成果落地，在人力资源和支撑性职能领域，数十万名作业员和研发人员已经可以通过统一的对话式入口，对公司政策、管理反馈、薪酬、休假等领域进行询问。以作业员为例，可极大程度的降低了对于系统使用的门槛。同时，相比于传统的提交工单系统，极大程度的提升了员工关怀专员对于作业员反馈处理的效率。

在员工关怀相关的问答场景中，知识覆盖度达46%（知识来源严格受限于知识库内），对于较为开放式的问答可实现76%的知识覆盖度（允许利用大模型本身的知识进行补充，常用于闲聊场景），并且在一个月的试用时间范围内，由业务专家对回答质量进行抽查，未收到任何负反馈。

对于系统回答不知道的情况进行统计分析后得出结论：

91.1%：知识库内并不存在相关知识，需要知识运营人员基于相关话题判断是否需要补充相关的领域知识
1.4%：问题是提问不明，例如“离职、投诉”，此处进一步通过关联问功能，让系统引导用户给出更为准确的问题，如“离职手续怎么办理？”
0.7%：专有名词尚未加入配置项，如员关=员工关爱中心、员工一站式服务中心，需要引导知识库运营人员在产品中添加相关配置。
6.8%：相关语义存在识别问题，需要通过算法进一步提高。枫清科技（Fabarta）通过产品本身，也可实现对bad case的自动化收集，以持续性的提高回答准确率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业