我要投稿

企业怎么理解和应用AIGC、RAG、Copilot、Agent、多模态大模型等AI范式

发布日期：2024-05-18 21:01:52 浏览次数： 2789 作者：沈宏萧

AI大模型领域大概每两三个月就会产生一个新词，比如AIGC、RAG、copilot、Agent、Sora、多模态大模型等等，让人眼花缭乱，今天我们就来谈一谈这些概念背后的实质以及在企业数字化、智能化中如何应用。

一、AIGC和RAG

AIGC就是AI Generated Content，用AI来生成内容，这些内容可能是文章、图片、视频等。通常是你只要写一段指导语告诉大模型，大模型就能按照你的描述来生成相应的文、图、视频。RAG，英文是Retrieval-Augmented Generation，对应的中文是检索增强生成，也可以理解为生成前需要基于已有的数据/知识。在企业环境中，直接基于一个意图/指导语，而不基于已有数据/知识的生成相对较少，比如企业营销人员生成一段小红书文案或图片，通常要基于自己企业的产品或服务，而已有的产品/服务可能存放在某个数据库/知识库里。因此企业内部落地AI，包括用AI来做内容生产，多数场景可能是RAG这种架构。

对于RAG的直观理解，可以参考国内近期爆火的kimi，交互是问答模式，但以检索出来的资料为基础（kimi所在公司认为自己产品强在无损长文本输入，不算是典型的RAG）：

RAG在企业中常见应用场景是利用内部的知识/数据做搜索、问答、推荐、生成。这些应用通常都能帮助对应业务场景的效率提升，但这样的应用效果通常都是点状的。在企业数字化转型中，还有一个更重要、更影响全局的应用场景就是认知和文化转变。数字化转型常说的转认知、转模式、转流程、转机制等等，其中模式、流程、机制容易落到系统中，但人的认知转变较难通过系统直接完成。“场景试点-树立样板-传播学习-迭代升级”是不少企业中促进大家认知转变的基本方法，但总结知识经验/实践案例门槛较高、周期较长，之后传播学习阶段的线上推送往往没太多人看，而线下集中学习也较难组织和评估结果。

利用RAG可以怎么做呢？可以用大模型，从日常工作文档、汇报资料中，参考规则和范例，提炼出最佳实践、操作手册、“干法”；通过大数据和AI技术，精准推送给每个需要学习的员工；并利用大模型分析学习者后续的工作文档和资料，确认之前学习的样板案例有没有被消化吸收，这样就可以形成知识/经验快速、高效流动的闭环。当然，这套方法也可以面向企业外部各种文档、报告，将外部的知识经验、最佳实践，快速转化为内部的知识和经验。具体而言，上述过程的实现，有如下关键点：

1、需要提供一定数量的总结报告、操作手册等给到大模型作为训练材料，大约几十份到数百份作为样例即可；

2、已有文档资料可能有几十、数百份，从中提炼知识或做文档比对时，需要大量算力和token成本，可采用召回优化、算力优化等方法降低费用，一份成本可控制在数百元；

3、精准推送在以往就有较多落地案例，但需要高质量的人员标签数据，可以基于岗位知识地图（每个岗位需要哪些知识支撑工作）标签来推送，从而提高准确率；

4、文档经过大模型加工的信息安全问题，可通过企业内部部署大模型的方式解决，开源大模型相对成本较低，近期LLama3等开源大模型能力也越来越强。

另外，最佳实践在未经总结之前，一开始都隐藏在当事人的头脑里，这时候需要结合一些知识萃取的方法，让当事人讲述难以忘怀的瞬间，并按SCORE（背景、冲突、选项、结果、评价）、STAR（情境、目标、途径、结果）等框架来总结出里面的关键信息。以往知识萃取通常是人来完成，现在可以录音录像后用大模型转换和自动提取，从而大幅压缩萃取的时间。由此可见，用好RAG&AIGC，也可以更好的支撑企业内部的知识/经验沉淀，从而使企业获得长久的竞争力。

二、copilot和agent

copilot是副驾驶的意思，在大模型领域通常也把copilot模式的AI叫做智能助手。微软Bing搜索里面就有一个“copilot”（如下图），并且微软也是copilot这个概念的重要推手。但Bing搜索里的“copilot”更多想表达的是对传统搜索模式的颠覆：

更有“智能助手”、“AI副驾驶”这种感觉的，是Edge浏览器里内置的copilot，可以在浏览器右侧展开或收起，对用户当前浏览器里开展的事情起到辅助的作用，国内也有一些产品如小明AI，做的是浏览器插件模式，展现形式与Edge内置的基本类似，也可以唤出/收起：

另外一种较为常见的copilot模式是把大模型能力嵌入各种日常工作软件中，如钉钉、飞书中聊天、文档、项目管理等模块引入了大模型，帮助用户做总结、改写、生成等，或者像github copilot这种，安装插件到自己的代码编辑器中，帮助提升编写效率：

说完copilot，再谈谈AI agent。业内习惯将agent翻译成智能体、智能代理等，是能够在一定环境中自主执行任务或者作出决策的智能系统。AI agent可以是软件形式，也可以是集成到物理设备中的系统，人们期望的智能体能够在没有人类干预的情况下执行任务或作出决策；与人类用户、其他代理或系统进行交互和沟通；感知其所处的环境变化，并据此作出反应；不仅能够响应环境变化，还能够主动采取行动以实现特定的目标或任务。智能体的架构中通常都有计划、记忆、执行等模块，熟悉心理学的话会感觉agent就是一个“人”：

Agent的创建和使用已经被工具化、服务化，一些开源框架比如Dify、毕昇、FastGPT等受到了比较多的关注和应用：

这些框架中可以根据你的业务场景和需求，编辑一个工作流来满足，理论上它能做各种各样的事情：

copilot和agent是可以结合的：copilot可以作为用户可感知的、直接接触的前端系统，而agents在背后工作，帮我们处理各种问题，并且在copilot中呈现出相应的结果。

这种AI copilot&agent怎么在数字化转型中应用呢？数字化转型中两大核心难点，一是内部机制如何支持更好的用户/客户体验，二是数据/信息断点太多导致内部协同低效。

1、在用户体验的支撑方面，AI copilot可以嵌入到企业员工的业务流、工作流中去，比如在销售场景中，自动给员工提示当前用户/客户的基本信息、近期购买情况、喜好点、厌恶点、销售机会、销售策略等，从而促进转化和满意度，又比如在售后场景中，自动给员工提示物流信息、安装配件、维修方案、用户服务历史等，从而提升满意度，减少不愉快发生的可能性。实现这些价值的背后，需要大量的数据/知识治理工作，可以利用好上文说过的RAG模式，快速、及时的生产出对应的数据/知识，以备copilot&agent去调用。

2、在内部效率提升，减少数据/信息断点方面，通常是因为企业内IT系统众多，可能是不同时期、不同厂家提供，难以严丝合缝的相互对接，更多是因为原来线下由人完成或参与的老“系统”对接不畅、运转不灵，而AI copilot同样可以嵌入到企业员工的业务流、工作流中去提升效率。

比如在生产制造型企业中，copilot在日常工作中可以帮助生成设备点检记录、生产运行记录、生产完工报告等，在交班环节可以生成交接班报告，去打通同工种之间配合的断点；在安全生产规程、工艺标准、质检规范等方面可以提供主动推送，在设备故障诊断、维修方案、配件查询等方面提供精准问答，去打通不同工种/部门之间的断点；还可以利用copilot的代码生成能力，应用于SQL代码、PLC代码生成、协议代码等生成，进而实现生产设备操控、机器人开发调试、低代码工业应用开发等，去打通人和系统/机器之间的断点。

目前很多企业里大模型的应用都是单点的，较少从“系统梳理、打通断点”的角度，按一条主线甚至一个基本面去解决企业内部的问题。这里面可以调整思路和做法，系统性的去应用大模型。

三、多模态和transformer

多模态（MultiModal）大模型是AI领域非常重要的发展方向，能够处理并理解多种不同类型的数据输入，如文字、图像、视频、音频、触觉信息等。这类模型的核心优势在于它们可以综合多种模态的信息进行协作推理，从而提供更为丰富和准确的输出。典型的如GPT-4V，可以用文字生成图片，或者理解图片中的内容用文字表达出来，更知名的是Sora，文字、图像、视频结合的多模态，还有GPT-4o，支持语音、文字、图像混合交互。

多模态大模型的兴起和Transformer架构之间存在紧密联系。可以将Transformer视为大模型的“内核”或“发动机”，正如计算机的CPU是其处理能力的核心，Transformer的自注意力机制允许模型在处理数据时同时考虑序列中的所有元素，使其能够有效地学习语言的复杂结构和模式，GPT的T就是transformer。不仅是语言领域，Transformer这种架构特别适合处理长序列数据，而视频、音频这类数据本质上是由一系列连续的帧或样本组成的；Transformer处理数据时还能同时考虑全局和局部的上下文信息，这对于理解图像、视频和音频中的复杂关系非常有用；而且Transformer架构具有良好的可扩展性，可以通过增加模型的层数和参数数量来提升模型的性能，这符合多模态大模型对高计算能力和大数据集的需求；同时，Transformer架构可以设计成能够融合来自不同模态的信息，如将文本描述与图像或视频内容结合起来生成新的视频或图像，实现多模态信息的有效整合和“翻译”。

我们以往在接触大模型时，通常想到的原型是“智能对话机器人”，把大模型当作一个类人智能体。但大模型不只是聊天，从多模态和transformer的角度来看，各种文档布局特征、3D图像、点云数据、波形信息、手势、面部表情、触觉信息、心率、脑电、触觉、气候变化、股票变化、传感器数据等等，都是大模型可以发挥作用的领域。

比如，交通事故监测如果与多模态大模型结合，可以将监测视频中发生的事故情况进行精准描述：“某某时间，某某路口，发生一起严重交通事故，一辆轿车与一辆大货车发生追尾，轿车（后车）座舱损坏，A柱断裂，安全气囊弹出，驾驶员上身有大量血迹，处于昏迷状态”。类似这样的描述对于出警、出医都会更有帮助。

回到企业场景中。对于用户/客户需求，多数企业不能实时感知用户的行为和想法，无法进行用户/客户体验的及时评估，也无从知晓用户/客户需求的潜在变化。对于内部最影响效率的数据/信息断点问题，一是系统方面，企业通常已有多套系统在运行，这些系统来自不同时期、不同供应商，如果希望系统之间通过接口传递数据，可能有投入太大、供应商不配合等问题，如果希望优化甚至替换原有系统，可能又有屎山代码多、替换难度大、时间周期长等麻烦；二是部门/个人协作方面，即使业务流程尽可能的在线化，面对用户/市场的变化，不同部门之间依然需要大量的协同，而各个部门/个人因为职责不同，天然会带有不同的思考角度、做事方式和利益。总之，打通系统与系统、促进人和人协作是比较费力的事情。

而我们结合RAG/copilot/agent和多模态大模型，对以上问题可以提供的解决角度举例如下：

1、采用毫米波雷达等传感器，结合可以处理距离/速度/角度/三维点云等模态的大模型，分析门店/线下活动场馆等地方用户的人流和行为特征，例如根据人们在门店内不同区域的停留时间，了解顾客对某些商品或展示区域的感兴趣程度；

2、在网络上爬取视频，或者在用户允许的前提下拍摄，利用表情/动作分析等模态的大模型，对用户使用自家产品/服务中的表情、肢体动作、语言等进行综合分析，从而找到其中功能或流程中的薄弱环节，改善体验；

3、利用LayoutLM等视觉理解大模型及FormOCR等技术，将IT系统/浏览器界面中的信息识别出来，实现对信息的抓取；

4、再通过语言大模型，转化成自然语言或表格型、结构化的信息，实现不同系统之间的信息汇总；也可以结合以往的数据和知识，利用RAG，进一步形成报告，分发给相关部门/人，实现信息的畅通和及时流转；

5、对于接受者/系统来说，还可以利用逻辑推理类大模型，自动分析其他人/系统提供的信息中，哪些是影响/支撑“我”工作的，哪些是需要我注意或调整的，在copilot中形成提醒和待办；

6、也可以从A系统获得必要信息之后，用操作控制类大模型，生成执行代码、脚本等，让B系统自动运行，完成不同系统的联动作业。

四、企业数字化转型和大模型建设的融合

企业数字化转型天然包含智能化，而AI大模型的智能化必然依赖于数据/知识。企业在进行数字化转型的过程中，可以充分利用大模型的潜力来加速转型进程。大模型通过学习并掌握特定的工作任务，实际上促进了业务流程的数字化和线上化。因此两者密不可分，在企业中是可以共同推进的。

如何用好大模型，助力企业数字化转型，可以用“三个一”的思路来实施落地：抓住一个业务对象，基于一个核心系统，贯通一条主线。

抓住一个业务对象，是指企业在一个阶段内抓住“用户全链路体验”、“供应链周转效率”、“客户交易流”等等这样一个重点业务对象，集中注意力和资源来开展数字化和智能化的转型。这样的业务对象和场景通常有着前后紧密关联的N个环节，背后的基础数据、流程、模式、经验是高度相关、可复用的，其产生的改善和收益也是系统化的。

基于一个核心系统，是因为数字化转型中天然包含着IT系统的改造、连通和集中化，通常都需要企业建构一个或一些新的系统，逐步将老旧系统的能力汇合到新的系统里；而目前很多企业落地大模型的时候经常这个系统里加一加、那个系统里试一试，没有基于一个核心系统去做场景和能力的拓展。数字化转型和大模型建设，应该基于一个系统，打造一个统一的AI Copilot/RAG，背后调用N个多模态Agent，去完成业务流/业务价值的融通。

贯通一条主线，是指在数字化转型的实践中，企业可以将大模型的集成作为解决方案的一部分，用一条主线目标去贯彻实施，比如“如何精准定位和抓住用户/客户，以及如何通过高效的内部协作来满足他们的需求”。这种思路不仅会提升业务流程的智能化水平，还会增强企业对市场和客户需求的响应能力，进而实现商业目标的达成。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业