生成式 AI 的趋势下,尤其是智能运营场景当中,企业如何利用和落地生成式 AI 的应用,今天将分享基于亚马逊云科技生态体系下,生成式 AI 的应用案例分享,以及大家针对生成式AI的看法和解决业务痛点的共识问题。
分享嘉宾|李云 亚马逊云科技 生成式人工智能高级产品经理
生成式AI 已经是一个不可阻挡的趋势,我们相信它是可以解决一切“问题”的,但是“问题”是什么呢?我们经常说要从大处着眼,小处着手,找到实际的业务痛点是关键,不要拿着锤子找钉子,钉子要钉在哪里才是需要解决的关键问题。下面会拿一些实际的客户案例,给大家来举例说明。每个行业都有情感分析、舆情分析和业务洞察这样的共性需求,比如常见的商品评论信息、金融客户的财报分析、行业的洞察、第三方的社媒、还包括客户日常运营当中的各种反馈信息,不管是纸质的还是电子版的,会有各种收集到的信息。挑战的地方在于:以前也有传统的机器学习来做,例如用 NLP 的自然语言处理的模型,它可能是一个模型解决一个任务,想关键词提取、情感分析、翻译等,每一个模型可能是解决特定的任务。现在生成 AI 下的基础大模型,因为能力的涌现,可能一个大模型就解决了刚才说到挑战,能去在多个任务上面去直接解决,而且在人类语言的理解上面更进一步。传统的人工加自然语言机器学习,会造成人工造收集的效率低下,以及针对大规模的舆论进行分析时,模型层面的能力会限制最后输出的信息准确度。而且通过人力加机器的方式,还存在模型的调优成本。整体来说,它的投入产出比,以及价值点还在精进中。但是现在生成式 AI 下的大模型,典型的优势有3点:第一点,在信息处理的能力有显著提高,同时在任务的复杂度上,能够进一步的实现一些复杂的任务,比如 AI Agent 的概念,大脑部分由生成式 AI 大模型来充当,它可以决定下一步的 Action 的选取。通过大模型洞察,一方面帮助我们能够收集到反馈投诉的信息,一方面解决在客户服务质量上面的优化,让客户有更高的满意度。第二点,对特定的产品、细节上面有什么样的反馈,可以帮助我们有更好的洞见,能够观察一些消费者趋势。这些产品特性,对于消费者的市场反应,可以让我们做出更好的营销和决策。第三点,在社媒和社区的评论当中,用户对于特定活动和特定商品的观点,以及竞争对手的评价信息和比较,可以更好地去挖掘用户的诉求,为产品改进提供参考。以实际的举例来说明, 在用户评论场景下有一个客户实践,用 Cloud 3 的大模型加上 Crew AI 的开源框架,构建了应用商城的用户分析工具。那这个场景下的话它是做什么事呢?我们见到大量海外的客户,他去做游戏的 App Store 、Steam、Google Play上面的产品部署,会有大量的用户评论,这些评论数据,可以快速了解用户的反馈信息;可以发现客户的痛点需求;可以监控当前的应用表现,以及同行的竞品情况;可以收集用户对功能的反馈;可以更好地提供客户体验,以及最后就是提供竞争分析。在架构设计上面用的是 Crew AI ,是一个开源的协作式多智能体框架,下面的多个 Agent 之间可以协同工作,每个 Agent 有特定的功能。比如说有的是用来爬取数据源,有的是要进行数据的处理,有的是直接调用大模型,有的是做场景分类,然后做评论分析的洞见总结,最后出来一个报告。这是一系列的自动化智能体,构建出来一个应用商店评论分析的工作流程。比如以 Minecraft 的一个游戏做了一个验证,当评论的信息总结完毕后,会提供几个洞见。第一个是发现游戏当中的定价问题,其中有哪些信息点提到可以进行下一步的优化,第二个是网络连接的问题,网络层面导致客户体验变差,运营人员有更好的依据来进行调整。通过上述方式得到的洞察,其实传统的评论分析也能做,为什么一定要用大语言模型或生成式 AI 的技术来做呢?首先这些分析是可以 Agent 自动化的决策和完成的。其次它的洞见能力,当有海量的信息待处理时,用传统的机器模型,会有信息的缺失,以及总结能力弱。不如大模型时代下的总结和洞见,内容会更丰富、更细节、更智能。这也是现在看到很多客户在评论分析场景下又重新研究,重新是实践的一个样例。另外一个案例是一家 ToB 的 Shulex 公司,主要是做电商平台 VOC 的分析公司。他们为电商企业提供用户的洞察分析,帮助他们进行商业的决策。这个场景下的痛点,包括海量信息如何进行分类、如何进行分析、用户长文本的处理能力是如何等等,最终解决方案可以支持长达 200K tokens 的超长上下文的信息,当给到大模型海量的信息,哪怕想找到其中某一句话,也能够把这句话召回出来,准确地调用到相关信息,这也是大模型和传统机器学习不一样的点。同时这家公司还有智能客服的场景,基于 RAG 框架,用 AI Bot 识别用户的一些关键词,帮助了解用户的意图。在大模型时代下,它能够了解意图的分类更精细,标签化的维度更多,对用户的意图分析非常充分,在回答用户问题时,调用到知识库里面的内容,召回能力就更强,总结能力的话也会更有温度,更贴近人性,可以让用户体验更佳。以前的 GPT 3.5 和 Llama 2 的这些开源模型,是文本类的、语言类的模型,输入文字输出文字,那多模态下的交互场景可以输入图片输出文本。多模态中常见的一些场景,比如说金融行业分析财报信息,对财报的信息进行趋势的分析,以及用运营报表来提取关键字,来分析支出、收入、利润率等维度信息,甚至生成一些摘要。这些场景中往往是图文结合的方式来做,经常会遇到的一些问题。第一个就是文本的模型、语言的模型要转成多模态的模型,在提取过程当中往往有信息不一致的挑战,多模态的处理能力,是大模型时代下非常重要的关键指标之一。第二个是模型识别出来的信息准确度,包括在处理复杂的问题上面,以及对于表格的结构处理,都是多模态模型的一些技术关键点。以亚马逊云科技已经发布的财报为例,里边有比较多的一些信息,比如一些趋势图、公司的股票总结、一些指数和参数的分析,信息类型包括图表的趋势图、表格里结构化的键值对、还有大量的文本信息。上图橙色框内就是总结,包括股票的总结信息,还有经济、财务类的总结信息,以及公司的指标信息。可以看到有三段,总结的非常整洁。回归到文本场景当中的客服质检,常规的客服人员因为专业水平不同,对于公司的的规章制度和相关问题答案的理解不同,导致面对用户回复的结果是参差不齐的。在这种场景下,大语言模型是如何体现它的的能力呢?看下面一个样例,是在客服坐席中规范用户对话的质检场景。是一个事后处理,但事后处理可以用于客服人员下次工作的参考,让大模型去打分,建议客服人员下一步该如何提高坐席的通话质量。这个场景在用客服回答的内容时,体现出来很多步的技术细节。先是把语音场景的文本提取出来,再进行关键词的一些提取,提取后会把提取内容跟自己专用的标准回答库进行比对,然后进行打分,打完分之后会给到质检,评定出来 0123 分。比如一些专用的场景要回答一些关键词,包括保证金、会费率、订单等关键词,而客服在回答的时候是否跟标准答案有冲突。比如上图左侧可以看到客服的一些规范要求,需要坐席回访与话术库之间的对话信息完全一致。所有的问题如果是标准的就打 2 分,如果中间有一些部分重合打 1 分,如果完全不一样就打 0 分。智能问答的客服是生成式 AI 中最为广泛的应用场景,一个是多语种的知识能力,另一个是更接近人类自然语言的交互。以前也有大量的客服场景,是背后的机器人在跟我们进行回话,但是它处理问题都是标准答案,而且语气很生硬,能做到自然流畅的对话方式,是生成式 AI 改善的地方。以及在有大量文档的场景中,比如说有PDF、 Word 、图表这信息,它的格式是比较复杂的,前期要做很多的处理工作,往往有专门的供应方负责解决前面的数据处理,到大模型时代下的对接。这也是一个构想中的业务到真正落地之间,其实有很多技术环节要实现,那这些技术环节里面,到底选择哪些合适的工具和合适的方案,才是我们需要去关注的点。互联网行业来说,有大量的社区评论,常常含有一些不合规的问题,这个应用场景更偏向于审核的场景。比如说有一些政治相关的问题,或者广告相关的问题,甚至有些色情的问题,这些敏感信息会带来企业风险,一般多用传统的方案解决,包括用规则性的方式去做,或者传统机器学习用语料库训练,这种场景下需要模型能力的持续迭代,但会受制于解决方案供应方的模型迭代速度,同时加人工审核的方式,需要大量的人工成本投入。以一家游戏客户为例,他们当时有大量的话题场景需要做审核,利用大模型快速地鉴别用户是否有辱骂行为,识别完毕之后进行屏蔽,帮他快速地过滤敏感信息。一方面显著地提高识别的准确,另一方面也极大地提高了人审的效率。第二个大模型应用是希望做舆情分析,每天大概有 50- 60 万的输入,基于大模型长文本对话的能力,提高输出的准确率,同时精准性也会更加好。亚马逊云科技提到的一个理念就是 Model As Service,大模型是未来的趋势,包括所有的产业链上都会有大模型驱动。任何场景下,不是一个模型解决所有的问题,比如实时的场景和离线分析的场景,就会有差别,Amazon Bedrock 会提供很多款不同的模型去选择。针对不同的特定场景,所关注的点可能是不同的,可以根据场景选择不同的模型。关于 Agent 的概念,未来的很多场景当中,都是用 Agent 智能体去做决策,驱动下一步的动作,而不是写死在原来的代码逻辑里面。大语言模型的能力充当大脑部分,以及生成的任务去做一些执行。为了降低大家使用 AI 的门槛,实现普惠,简化了集成的过程,只要选择适合的模型,然后执行需要的任务,选择调用的模型与数据源,就可以自动的分拆任务、调用知识库、分析请求自动调用需要执行的下一步任务的 API。整体的链条不需要在去设计,实现简便大家代码化的、工程化的功能。以图示化的形式,为大家呈现出构建 Agent 的几个步骤。第一步要去创建一个 Agent,比如办公助理帮助保险人员执行索赔的任务。第二步添加需要调用的工具组,比如需要报销的功能选项,先要去检查文档相应的东西是否提交了,是否发送出去了,把这些工具组添加进去。第三步需要配置从哪里调用数据源,比如报销的政策信息、索赔的处理文档、索赔的历史数据,把这些数据源准备好。最后,这些工作就交给 Agent 完成。只需要设计一个前端页面,提交互动的动作就可以了。生成式AI大模型的能力有哪些?我们能利用这些能力做什么事情?第一个 Claude 3 Opus 的 token 长度达到 200k,在长的上下文的范围内,提升了 2 倍的准确率。在传统的机器学习下,长文本进去之后,出来的结果可能文不对题,召回能力差,现在大语言模型时代下,它非常惊艳表现的之一,就是在一个非常长的上下文当中,也能帮助你去提取到需要的关键词。第二个 Claude 3 Sonnet 具备更多的技能和速度优势,比如在金融领域,处理保险业中专业的知识能力,帮你去做一些服务的助手。比如在客服场景,生成自动化营销的文案。比如创意写作的能力,去生成符合 TikTok 风格的营销文案,或者符合携旅文化风格的文案,含有特定的特价机票信息、目的地、当地特色等信息,都能帮你生成出来。第三个 Claude 3 Haiku 的实时响应速度非常快,比如转录的场景,比如会议纪要,可以直接提取出来,提取出来之后还可以做总结。还有实时聊天的场景、风控的场景,以及内部文件快速摘要等场景。再来说大模型多模态的能力方面,对于生活化的图片可以识取标签。比如说穿衣风格,有很多元素在里面:蓬蓬袖、短裙,彩色指甲等,能在生活中的图片提取很多标签,标签的信息越丰富,里面的内容素材越多,通过自然语言出来的营销文案细节就会更多,所以在多模态生成能力下,前一步的识别是非常重要的。多模态能力也可以深化图片报表、信息提取、总结报告的数据等。整体来说的话,大模型时代下,大家都非常兴奋的去做各种技术的尝试和调研,但是大家要更关注,除了性能表现之外,在数据的内容上面是否更可控、准确性是否更高、视觉能力是否更丰富。大模型更多的是工具,再特定的场景下,企业用户是更懂业务的专家,通过生态合作伙伴的能力,找到合适的工具,帮助企业从模型到应用之间做好桥梁,也期待未来有更多的业务场景可以共创业务实践。以上就是本次分享,如需获取专家完整版视频实录和课件可扫码领取。