在Sam Altman、吴恩达等几位AI业界人士的“带货”之下,Agent作为新一代生产力工具的巨大潜力和广泛的应用前景终于“破圈”、被更多的看到和讨论。其实在2023年时,我就预测过,2024年会是大语言模型应用落地和Agent的元年。最直接的原因是,当前AI大模型在没有人类监督的情况下,缺少自主行动以及在复杂环境中适应和执行目标的能力,这限制了AI大模型对于组织的商业价值,而AI Agent能够自主行动以适应性地实现复杂目标,弥合了大语言模型的上述缺陷,今年初以来,已经有越来越多的人看到了这一点。那么在ToB领域,Agent将会是怎样的存在形态?Agent又会如何影响或重塑企业服务市场?AI Agent的关键特性
与不同Agent的应用实践
根据Gartner的定义,AI Agent是使用AI技术在其数字或物理环境中进行感知、决策、采取行动和实现目标的自主或半自主软件实体。AI Agent被设计用来与它们的环境动态交互以实现目标,通过传感器接收输入,并通过工具/执行器采取行动,可以在多样的环境中操作。
其中,在构建AI智能体时,需要特别关注Agent的五个关键特性:
- 适应性:Agent能够根据环境或目标的变化调整其行为和策略。
- 主动性:Agent能够预测未来场景,做出战略决策并提前采取行动以实现目标。
- 目标的复杂性:Agent能够管理和执行涉及多个、通常是相互关联的目标的任务,这需要高级的决策和问题解决能力。
- 环境的复杂性:Agent能够在具有高水平的不确定性、变异或复杂性的环境中导航和执行任务。
- 自主的程度:Agent能够在最小或没有人类干预的情况下独立操作的程度。
此外,Agent又可以被分为单Agent和多Agent应用,目前我们看到最多实现的是单Agent应用。在澜码的实践中,基于当前SOTA(“State Of The Art”,即最先进的、性能最好的模型)的大模型GPT-4的AI Agent,可以在专家知识的指导下,完成一个5年以内工作经验的员工所承担的某个角色的任务,例如根据多源异构信息来源,撰写符合业务规范的报告这样的任务。拿普惠金融场景下尽调报告任务举例,银行的业务专家给出尽调报告的word任务模版,模版中描述了所需要的被调查企业的信息,例如营业执照、公司章程、公司股东情况、银行流水、公司财报等;其次,描述每个章节的撰写规则,例如公司基本情况、股东情况、财务情况等。
AI Agent根据需要,主动从企业内部环境中调用API获取数据,或者从与客户经理的对话中获取相关数据后,根据业务逻辑抽取相关信息,再根据业务规则,总结后,填写合适的内容。这就体现了单Agent在计划、记忆、工具使用方面的能力。随着类似GPT-4o这样拥有实时交互/情感智能的大模型的普及,单Agent应用能够处理的任务的复杂性会逐步增加,单Agent介入到业务流程内,跨流程、不同角色之间的观察、协调会越来越多的被实现。由于Agent有能力通过自动化任务做出明智决策以及与周围环境智能化地互动,可以被配置为在任意的数字化环境中运行,因此Agent可以应用于多种流程,从而产生多种Agent交互模型。例如未来每个线下销售带着手机拜访客户时,会默认打开Agent,帮助销售记录、总结销售与客户之间的沟通内容,让整个销售管理流程更透明,从而逐步从单Agent演化到多Agent应用。多Agent应用场景的难点在于如何令多Agent对齐价值观、对齐目标,让Agent彼此更好的互相协同,以及与人类员工实现协同,为流程/组织的提效创造价值。大语言模型技术的发展带来了人机协作的变革,落到企业级应用领域,有了大语言模型,传统软件本身的功能数目上限会被打开,不同软件之间的边界也会被打破。基于大语言模型的理解能力和Agent应用可以实现将多个软件连接在一起,从而更好的理解用户需求、更高效的去处理需求。在AI2.0时代,大模型的“能力涌现”可以完成AI1.0时代人工智能无法完成的任务,突出表现在信息快速提取能力、指令遵循能力、Agent的互动适应能力三个方面。
信息快速提取能力是最简单,也是最能直观感觉到的。过去让系统处理各式各样的文档、周报、聊天记录是件十分困难的事。但依托大模型的涌现能力,今天一个Prompt工程师一个礼拜的工作量就可以解决这个问题,这也是当前AI拥有的一个变革性的能力。指令遵循能力是指大语言模型完全可以理解人类的自然语言去执行相应的工作,在此之前,人类用自然语言发出指令,是需要程序员将其翻译、配置成规则。以招聘场景为例,一个专家定义好“工作稳定”是指工作五年的工程师需要每份工作时长必须大于 18 个月,大语言模型就可以理解、执行命令了。从程序员的视角看,过去拿到文本,从中抽取信息出来都十分困难,更不用说执行文本中包含的“专家命令”。随着AI Agent拥有了这些理解力,下一个重大的能力提升就在于能够适应人。这里有两个视角:第一个视角是从用户的视角。ChatGPT出来后,大家都以为未来是CUI,即对话式UI,但是GPT-4o告诉大家,人机交互应该是多模态的、实时的。澜码在实际落地的角度还有一个观点是,AI Agent应该能够根据用户的专业水平,决定怎样理解用户的需求以及怎样展现信息。比如,我们需要有反问模型,澄清用户的需求;我们需要有更多的推荐,让用户只要选择,就能拿到正确的结果。第二个视角是从专家视角或者设计者视角。在低代码/BI流行的时代,都曾提出“让业务人员能够使用”的美好愿景,但现实最终还是成为IT人员的工具。现在,由于大模型能力的提升,我们已经看到了使用Word/Excel这样的人能理解、机器能处理的工具来运营AI Agent的可能性。
未来的专家也许只需要维护一个Word文档就够了,文档描述了怎样教会AI Agent完成任务所需要的知识、步骤等,后续的“翻译”处理,由Agent平台和大模型公司来解决。这是我认为的Agent应用的高级形态。
AI Agent在企业级市场的应用场景初探
在我看来,AI Agent是一种新质生产力,它集成了专家知识、数据、模型和算力四大生产要素,以类似智能的专家服务这样的生产力的形态出现,可以极大满足企业自动化数字化升级需求,彻底颠覆企业形态。专家知识的高度决定了AI Agent能够提供的价值高度,数据会帮助专家快速迭代专家知识,从而提高AI Agent的通用性。有了这样的专家Agent,企业内部的流程可能都因此而迅速迭代,因为需要的人才数目、人才结构,提供的服务质量、服务能力都会迅速发生变化。
以澜码一个银行客户为例,国内某银行推出一项普惠贷款服务,旨在为中小企业提供便捷的贷款服务,以支持实体经济的发展和创新。但在发放普惠贷款的过程中,银行难以全面了解借款企业信息状况和还款能力,尤其是面对缺乏完善财务记录的中小企业和个体工商户时。因此银行客户经理往往要花费大量时间收集和分析各类资料,对申请企业进行尽职调查,并撰写尽调报告,包括客户情况分析、财务数据分析、尽调审核分析等等。但是,银行一线客户经理的业务分析水平参差不齐,导致了尽职调查和尽调报告质量不一;同时,系统中的报告模版也往往比较僵化,无法直接使用,一线客户经理就要花费大量时间在报告撰写上。澜码接到这个需求,为客户构建了一款基于大语言模型的尽调报告Agent,可以自动给出分析结论、生成报告,辅助一线银行客户经理的工作,不仅能够节省一线客户经理80%报告撰写时间,还可以全面审核客户资料,帮助人工发现一些不易发觉的点或遗漏,减少错误率。展望
大模型的发展日新月异,大模型行业价格战也一触即发。如果GPT-4o的能力被开源模型或某个云厂商以极低的价格提供给市场后,Agent领域会发生什么?3-5年后,当现有Scaling Law达到天花板,Agent领域又会出现怎样的趋势和可能性?GPT-4o带来了实时交互和情绪理解能力,那么未来在销售管理这个对每个公司都重要的工作环节中,线下销售(例如保险代理,导购,理财经理等)就会变成类似当前滴滴司机、美团外卖员一样的“人形机器人”——每天拜访谁、说什么,都会由“销售大脑”在专家知识的指导下分配并通过手机端下达。而且即便与客户互动不是由当前销售人员进行的,但由于所有互动都已实现了数字化,企业的“销售大脑”能够在分析这些数据后,为销售人员提供定制化的销售话术和产品定价策略,实现“千人千面”的精准营销。这样一来,线上电商已经实现的个性化销售策略,也完全可以在线下业务中实现了。当然,在企业后台,我们仍然还是有一批专家(销售冠军、或者产品专家)在反复迭代和优化策略、提供专家知识。下一阶段,伴随着GPT-5、GPT-6(假设这是下一代产品的命名)带来更强的逻辑推理能力,Agent收集到更多的过程化数据后,不同角色/岗位的任务越来越可以被外包出去由社会上的专家服务完成,类似现在的企业流程外包;另一方面,在企业内部,能够对流程进行设计和推演的“企业大脑”就能赋能一人超级公司出现,从而进一步对各种专家服务提出需求,最终形成一个百花齐放的Agent市场。推荐阅读:
硅谷连线|澜码科技CEO周健:创业公司不要站在大厂的“延长线”上
澜码创始人周健长江独角兽峰会分享:AI Agent如何为千行百业赋能
腾讯科技专访澜码CEO周健:“百模大战”后,“模型中立”的机会