微信扫码
与创始人交个朋友
我要投稿
一、AIGC和RAG
AIGC就是AI Generated Content,用AI来生成内容,这些内容可能是文章、图片、视频等。通常是你只要写一段指导语告诉大模型,大模型就能按照你的描述来生成相应的文、图、视频。RAG,英文是Retrieval-Augmented Generation,对应的中文是检索增强生成,也可以理解为生成前需要基于已有的数据/知识。在企业环境中,直接基于一个意图/指导语,而不基于已有数据/知识的生成相对较少,比如企业营销人员生成一段小红书文案或图片,通常要基于自己企业的产品或服务,而已有的产品/服务可能存放在某个数据库/知识库里。因此企业内部落地AI,包括用AI来做内容生产,多数场景可能是RAG这种架构。
对于RAG的直观理解,可以参考国内近期爆火的kimi,交互是问答模式,但以检索出来的资料为基础(kimi所在公司认为自己产品强在无损长文本输入,不算是典型的RAG):
RAG在企业中常见应用场景是利用内部的知识/数据做搜索、问答、推荐、生成。这些应用通常都能帮助对应业务场景的效率提升,但这样的应用效果通常都是点状的。在企业数字化转型中,还有一个更重要、更影响全局的应用场景就是认知和文化转变。数字化转型常说的转认知、转模式、转流程、转机制等等,其中模式、流程、机制容易落到系统中,但人的认知转变较难通过系统直接完成。“场景试点-树立样板-传播学习-迭代升级”是不少企业中促进大家认知转变的基本方法,但总结知识经验/实践案例门槛较高、周期较长,之后传播学习阶段的线上推送往往没太多人看,而线下集中学习也较难组织和评估结果。
利用RAG可以怎么做呢?可以用大模型,从日常工作文档、汇报资料中,参考规则和范例,提炼出最佳实践、操作手册、“干法”;通过大数据和AI技术,精准推送给每个需要学习的员工;并利用大模型分析学习者后续的工作文档和资料,确认之前学习的样板案例有没有被消化吸收,这样就可以形成知识/经验快速、高效流动的闭环。当然,这套方法也可以面向企业外部各种文档、报告,将外部的知识经验、最佳实践,快速转化为内部的知识和经验。具体而言,上述过程的实现,有如下关键点:
1、需要提供一定数量的总结报告、操作手册等给到大模型作为训练材料,大约几十份到数百份作为样例即可;
另外,最佳实践在未经总结之前,一开始都隐藏在当事人的头脑里,这时候需要结合一些知识萃取的方法,让当事人讲述难以忘怀的瞬间,并按SCORE(背景、冲突、选项、结果、评价)、STAR(情境、目标、途径、结果)等框架来总结出里面的关键信息。以往知识萃取通常是人来完成,现在可以录音录像后用大模型转换和自动提取,从而大幅压缩萃取的时间。由此可见,用好RAG&AIGC,也可以更好的支撑企业内部的知识/经验沉淀,从而使企业获得长久的竞争力。
二、copilot和agent
copilot是副驾驶的意思,在大模型领域通常也把copilot模式的AI叫做智能助手。微软Bing搜索里面就有一个“copilot”(如下图),并且微软也是copilot这个概念的重要推手。但Bing搜索里的“copilot”更多想表达的是对传统搜索模式的颠覆:
更有“智能助手”、“AI副驾驶”这种感觉的,是Edge浏览器里内置的copilot,可以在浏览器右侧展开或收起,对用户当前浏览器里开展的事情起到辅助的作用,国内也有一些产品如小明AI,做的是浏览器插件模式,展现形式与Edge内置的基本类似,也可以唤出/收起:
说完copilot,再谈谈AI agent。业内习惯将agent翻译成智能体、智能代理等,是能够在一定环境中自主执行任务或者作出决策的智能系统。AI agent可以是软件形式,也可以是集成到物理设备中的系统,人们期望的智能体能够在没有人类干预的情况下执行任务或作出决策;与人类用户、其他代理或系统进行交互和沟通;感知其所处的环境变化,并据此作出反应;不仅能够响应环境变化,还能够主动采取行动以实现特定的目标或任务。智能体的架构中通常都有计划、记忆、执行等模块,熟悉心理学的话会感觉agent就是一个“人”:
Agent的创建和使用已经被工具化、服务化,一些开源框架比如Dify、毕昇、FastGPT等受到了比较多的关注和应用:
1、在用户体验的支撑方面,AI copilot可以嵌入到企业员工的业务流、工作流中去,比如在销售场景中,自动给员工提示当前用户/客户的基本信息、近期购买情况、喜好点、厌恶点、销售机会、销售策略等,从而促进转化和满意度,又比如在售后场景中,自动给员工提示物流信息、安装配件、维修方案、用户服务历史等,从而提升满意度,减少不愉快发生的可能性。实现这些价值的背后,需要大量的数据/知识治理工作,可以利用好上文说过的RAG模式,快速、及时的生产出对应的数据/知识,以备copilot&agent去调用。
2、在内部效率提升,减少数据/信息断点方面,通常是因为企业内IT系统众多,可能是不同时期、不同厂家提供,难以严丝合缝的相互对接,更多是因为原来线下由人完成或参与的老“系统”对接不畅、运转不灵,而AI copilot同样可以嵌入到企业员工的业务流、工作流中去提升效率。
比如在生产制造型企业中,copilot在日常工作中可以帮助生成设备点检记录、生产运行记录、生产完工报告等,在交班环节可以生成交接班报告,去打通同工种之间配合的断点;在安全生产规程、工艺标准、质检规范等方面可以提供主动推送,在设备故障诊断、维修方案、配件查询等方面提供精准问答,去打通不同工种/部门之间的断点;还可以利用copilot的代码生成能力,应用于SQL代码、PLC代码生成、协议代码等生成,进而实现生产设备操控、机器人开发调试、低代码工业应用开发等,去打通人和系统/机器之间的断点。
三、多模态和transformer
多模态(MultiModal)大模型是AI领域非常重要的发展方向,能够处理并理解多种不同类型的数据输入,如文字、图像、视频、音频、触觉信息等。这类模型的核心优势在于它们可以综合多种模态的信息进行协作推理,从而提供更为丰富和准确的输出。典型的如GPT-4V,可以用文字生成图片,或者理解图片中的内容用文字表达出来,更知名的是Sora,文字、图像、视频结合的多模态,还有GPT-4o,支持语音、文字、图像混合交互。
多模态大模型的兴起和Transformer架构之间存在紧密联系。可以将Transformer视为大模型的“内核”或“发动机”,正如计算机的CPU是其处理能力的核心,Transformer的自注意力机制允许模型在处理数据时同时考虑序列中的所有元素,使其能够有效地学习语言的复杂结构和模式,GPT的T就是transformer。不仅是语言领域,Transformer这种架构特别适合处理长序列数据,而视频、音频这类数据本质上是由一系列连续的帧或样本组成的;Transformer处理数据时还能同时考虑全局和局部的上下文信息,这对于理解图像、视频和音频中的复杂关系非常有用;而且Transformer架构具有良好的可扩展性,可以通过增加模型的层数和参数数量来提升模型的性能,这符合多模态大模型对高计算能力和大数据集的需求;同时,Transformer架构可以设计成能够融合来自不同模态的信息,如将文本描述与图像或视频内容结合起来生成新的视频或图像,实现多模态信息的有效整合和“翻译”。
我们以往在接触大模型时,通常想到的原型是“智能对话机器人”,把大模型当作一个类人智能体。但大模型不只是聊天,从多模态和transformer的角度来看,各种文档布局特征、3D图像、点云数据、波形信息、手势、面部表情、触觉信息、心率、脑电、触觉、气候变化、股票变化、传感器数据等等,都是大模型可以发挥作用的领域。
比如,交通事故监测如果与多模态大模型结合,可以将监测视频中发生的事故情况进行精准描述:“某某时间,某某路口,发生一起严重交通事故,一辆轿车与一辆大货车发生追尾,轿车(后车)座舱损坏,A柱断裂,安全气囊弹出,驾驶员上身有大量血迹,处于昏迷状态”。类似这样的描述对于出警、出医都会更有帮助。
回到企业场景中。对于用户/客户需求,多数企业不能实时感知用户的行为和想法,无法进行用户/客户体验的及时评估,也无从知晓用户/客户需求的潜在变化。对于内部最影响效率的数据/信息断点问题,一是系统方面,企业通常已有多套系统在运行,这些系统来自不同时期、不同供应商,如果希望系统之间通过接口传递数据,可能有投入太大、供应商不配合等问题,如果希望优化甚至替换原有系统,可能又有屎山代码多、替换难度大、时间周期长等麻烦;二是部门/个人协作方面,即使业务流程尽可能的在线化,面对用户/市场的变化,不同部门之间依然需要大量的协同,而各个部门/个人因为职责不同,天然会带有不同的思考角度、做事方式和利益。总之,打通系统与系统、促进人和人协作是比较费力的事情。
而我们结合RAG/copilot/agent和多模态大模型,对以上问题可以提供的解决角度举例如下:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-07
2024-06-24
2024-06-17
2024-04-02
2024-05-08
2024-06-06
2024-06-20
2024-04-27
2024-04-02
2024-05-08