AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


聊聊从 0-1 搭建垂类Agent平台的总结与思考
发布日期:2024-11-06 09:49:55 浏览次数: 1872 来源:慢思考的产品小学生


大家好,首先对大家说声抱歉。

原本考虑要更新《企业RAG应用落地实践》系列,但是迟迟没有梳理好一个文章的写作定位。顾虑的点在于,我希望能够站在一个相对专业的视角去为大家介绍项目的整个过程,但是又不希望内容过于偏向大众化,让大家会有视觉疲劳的感觉,因此迟迟没有下笔。本着对内容严谨的态度,我决定先拖更一段时间,等我真正想好如何定位文章的内容后,再发表出来。

这一期我想和大家聊聊我在垂直领域从0-1搭建 Agent 平台的一些总结与思考,这里面不仅会局限于AI Agents 本身,还会为大家还原一个复杂业务,复杂组织架构下,如何构建一个完整的 AI 平台能力。这期间会聊到我对 AI 应用落地平台架构商业价值的一些思考

不过这里也要和大家说明的是,任何一个企业或组织,以及业务场景都会有其特殊性,包括Agents的研发落地至今也都是一种摸着石头过河的状态,所以我的内容大家参考,也希望能够和业界的老师们一起共同学习探讨,共同进步。

01


前言:在不确定的商业技术价值下的做决策


从22年末 Langchain 框架与Agent 概念的兴起,至今也将近有2年的时间了。但是真正在商业和技术上跑通价值闭环的产品方向上少之又少,有的也只是局限在某些领域的特定场景;


但我依然觉得 Agent 平台将会是未来AI应用落地中最核心的部分,即使大部分场景下的技术路径和商业模式尚处于探索阶段,而规模化的商业成功却往往源于不确定的技术与商业环境之下


可随之而来的问题是:在不确定的技术与商业环境下,如何做决策?即:我应该做什么才能一个商业型组织如何更大概率的接近规模化的成功这里谈谈我的思考

首先,成本的控制最核心的关键。因为当技术和商业不确定的时候,一个初创的产品在思考的初期就穷尽所有维度,预测产品、技术走向,乃至商业与用户模型,是一件几乎不可能的事;即使方向预测对了,那爆发的时间点位和时间线也没人能够准确预测。


为了让自己不会倒在黎明前,最重要的是能够让你的试错成本要足够低,低到你在做一个产品中所获得认知远大于产品失败带来的损失。


紧接着再提一个非共识,但是我觉得是重要的一个隐形的低成本模式,其实是认知成本的复用;通俗来说就是尽可能做自己领域已经成功,甚至失败经验的产品,这些产品带来的认知能够帮助你收敛新产品中不确定性的维度,同时你的认知可以被复用。


写到这里我想起 Albert老师在《42章经》播客中说的一句话:“找PMF就是要做没壁垒的事” ;对此我表示赞同,因为产品本身并不应该是最大的壁垒,因为没人做过的事大概率是跑不通的。


我觉得最大的壁垒并不是产品本身,认知才是。


其次,我的第2个观点是:如果没有发现成熟的应用场景和技术;那就下探一层,尽可能抽象一个维度,找到不变的业务路径与框架。


这也就是我为什么要做 Agent 平台的原因,如果将 AI 简单分为三层:即应用层、平台层与模型层;模型层是我们当前组织所不具备的组织能力(这个后面聊业务背景的时候还会再说到),因此在应用层不太明朗的情况下,下探一层做Agent平台则是一个相对较优的解法。


因为从 Agent 框架上看,规划(Plan)、工具(tool)、执行(action)、记忆(memory)的架构会在很长一段时间不会有大的变化,只是随着技术的革新,模型的推理、记忆等能力会变得更强,产品也会更有应用价值。


此外,用户将会在Agent平台上创造更多可能的场景和应用效果。如果假定技术奇点未知的情况下将应用的创造更低成本、低门槛的开放给用户,会让平台型产品更加平滑的接近奇点,更早一步获得技术带来的红利。




02


规划阶段:选择更适合产品的细分定位


先介绍一下公司的背景情况:


核心领域:一家头部的 CRM SaaS厂商,服务于中大型企业。

业务现状:拥有大量中大型企业资源,移动端 SaaS 日活接近百万。

产品范围:产品线较广,营销、销售、服务均涉猎。

组织形态:产研组织分工细致,自上而下分为 行业侧、领域侧(SaaS)、平台侧


针对以上的业务及组织形态,分享在Agent建设初期选取产品定位的思路。

最早打算做 Agent 平台的想法其实很明确,类比一下我所在的PaaS平台:


PaaS平台的定位就是为业务层提供可定制的产品能力,而从宏观的业务上看,由于本土化SaaS的特色:企业定制多、产品线铺的范围较广;就意味着行业之间,领域之间的业务场景差异较大,需要通过 PaaS 能力;如基础的表单引擎(对象)、流程引擎、权限;低成本驱动上层业务定制。


但仔细一想,又发现很多问题待探讨:

  1. 是否一定要做 Agent 平台,PaaS平台研发的本身就意味着高成本,成本是否划算?

  2. 当时大量的开源产品(类似Dify、FastGPT、Bisheng)已经出现,是否要重复建设一个新的产品,以及用户为什么要使用你的产品?


关于Agent平台设计的初衷


目前在业内形成共识的,Agent CRM的3个核心垂直领域(营销Marketing、销售Sales、服务Service已经被证明是有价值的产方向。可以通过 Agent 的推理与执行能力,简化SaaS的操作步骤,处理复杂业务流程。只是部分场景当前的模型能力还不够。


那么抽象出一个业务维度,所有智能体的规划和执行能力都基本可以归结为CRM的业务系统操作能力,而业务系统操作的背后是PaaS的编排能力。


而从PaaS平台本身的角度看,我们的PaaS平台已经天然具备了基础的业务能力。因此在自研 Agent 平台上,如果我们的大部分调用能力来自CRM自身的场域闭环,那么很多的基础业务能力(流程引擎能力、基础业务对象查询、更新API)甚至低代码能力(自定义函数)都可被复用;只是引入了一个新的PaaS子模块,从成本上看一定是相对可控的


另外容易被忽略的点是 组织能力模型的问题建设的初期由于面对的是一个陌生的领域一个为上一代产品建设的组织体系下,并不一定能够快速适应甚至配比到相应的人才,因此从向内看:产品架构的设计也会高度依赖于组织设计,这一切的目的是希望建立一个高效响应市场业务的组织体系。


而建立这样的组织体系最快速的方法不是去让大家去恶补知识,而是将组织能力做分层,在复杂组织下各司其职;让少数具备 AI 能力产研团队专注平台,用平台能力驱动业务场景建设。


具体的逻辑是,将 AI 的建设分为业务层与平台层。上层业务调用基础 AI 基础业务能力(Agent框架、基础模型切换、函数调用等);这样上层业务团队只需要对AI有基础了解,并专注于AI场景的挖掘,并与平台共建产品。


那么,用户为什么使用使用你的产品而不是那些开源产品?对此我将行业内的Agent产品大体分为几类:


如果以坐标轴的形式来看,目前大体可按照2个维度,分别是ToC——ToB、开源——闭源;我认为垂直行业领域 Agent 是存在行业机会的,原因有几个:


首先我认为通过上一代的传统互联网沉淀下来的企业用户能够作为我们的第一批种子用户,帮助我们的产品一起找到企业应用落地的价值点。会是我们的一个小的差异化壁垒。而这些用户的规模足够大,这些企业用户的信息已经大量沉淀在我们的系统中,如果要接入开源系统,需要有大量的迁移成本。


此外第2个假设是:用户如果希望更便捷的使用 AI Agent 能力,大概率希望配置的能力能够在系统内闭环,而不是需要大量的对接外部接口来实现工具调用能力;


自建的 Agent 可以让用户仅靠点选对象表单信息(Object,例如客户、商机)、自动化Flow就可以快速实现复杂业务的建设,这样无论是编写业务逻辑的工作量,还是 Agent 配置工作量上,都可以大大降低。


所以我们最后决定更倾向于自建垂类 Agent 平台。




03


Agent平台架构设计的过程


Agent平台首个版本的设计方法:以垂直场景单点突破


我们在做 Agent平台V1.0时,遇到的问题其实和大家类似:如何找到最佳的AI落地场景。当时 Coze 海外版还没有推出,市面上也没有太多成熟的落地场景,因此当时寻找场景的逻辑是:向内看;结合CRM业务场景找到能够快速赋能的细分领域,客服场景就是我们最初想要落地的方向。


由于本期内容仅描述具体选取的场景,不会选取场景的方法论;如果大家对此内容感兴趣,可以先看我之前的《AI产品的落地总结与思考》


那么在客服场景下,应用到 Agent 的首个方向是基于工单查询、变更能力。大致场景如下:

客服人员会在线与用户进行对话,解答用户的使用问题,如果发现系统或设备有问题,会自动提取客服与用户的对话,并结合AI提炼会话中的关键信息(如故障的位置以及待预约的时间),并辅助客服人员创建并将提炼的信息填入工单,基于工单反馈模块推送工程师进行咨询维修。


这个场景中的核心效率提升点在于,客服人员与用户在沟通过程中,AI 可以直接通过理解上下文语义自动帮助用户进行日常的工单操作(如维修工单提交),如下图所示:



左侧是客服工作区,客服人员可以通过左侧的文本编辑区与用户进行交互;而右侧是客服人员的 Copilot 界面,如果当用户提到某个设备产生了问题故障,且客服人员提到了预约处理时,AI助手能够识别左侧工作区的会话信息自动帮助用户创建,并结合上下文信息将工单所需的字段值映射进去;


相应的,如果我们把【工单】看做其中的一个对象实体,那么除【工单】外,【销售订单】【服务记录】等都可以作为系统内标准的操作API 封装到具体的工具中进行调用,并且能够定义每个工具/行动(Action)的入参和出参;而 AI 则作为“大脑”,承担意图分类器(Classify)和规划器(Plan)的作用。


所以从工单这一垂直场景,我们可以梳理出一次Agent调用流程:



从触发的逻辑上,体验最好的效果是:AI可以不间断监听Session某几行会话并实时触发操作询问弹窗;但实测下来无论是调用成本的控制上,效果其实远远未达预期。所以我们采用了PlanB,让用户根据业务实际进行主动唤起AI操作;这里最好的方式是通过Copilot【常用按钮区】进行快捷操作,同时也支持用户通过和AI助手对话,自动识别上下文信息来完成。


另外在控制模型输出的幻觉问题上,也是我们比较头疼的点。我们这里采用的2个主要的方式解决可控性缺陷:

1. 首先是在调用 Fuction call 接口失败的场景下,采用了兜底知识库的逻辑,这样确保系统在未获取外部工具的情况下,能够将自己的回答范围内,这样尽管感觉回答的内容不那么准确,但生成的内容会更符合规范。

2. 其次为了确保输出内容准确性和安全性,我们在最开始并没有采用最激进的Auto-Pilot 产品策略,所有AI生成的内容全部仅对客服人员开放,并提供了确认的流程,确保整个内容不会出现比较大的风险。


根据垂直场景的分析,我们设计输出了初版 Agent 平台架构,总体分为了通道层、Agent应用构建层、引擎层、模型层、基础PaaS业务层由于内容篇幅关系,就不在这里详细展开,等最后的架构说明中再展开描述。


反思与回顾:以单点垂直场景切入的局限


上文中提到了我们在初版架构设计的一些思考过程中,里面也埋下了一些伏笔,读者朋友有兴趣可以对照前文一起看。


首先,我们初期过于追求单点垂直场景的效果,导致整个系统的泛化效果欠佳;且整个架构的灵活性不足,以表单数据创建为例:


如果是在客服工作台中,客服人员手动激活AI创建工单流程;实际上是由2个具体的工具API完成;

1. 从外部通道(即客户与客服人员的对话窗口)拉取会话上下文并进行AI摘要提炼,而这里的【上下文】非当前AI窗口本身的上下文;

2. 将其作为【AI摘要的内容】变量作为【对象创建】工具调用创建API。


而大家可以发现,步骤1的操作是基于上下文摘要的标准化能力;而步骤2的对象创建工具是标准的API通用能力,仅需要做一些标准的能力(如表单类型,变量)配置即可。


为了确保需求的输出效果,我们将2步封装在了1个工具执行中;最后效果上确实也可以满足;但是整个系统不能支持泛化场景,比如不能够支持其他外部通用场景,且每次调用也只能调用一次工具,不支持通过Agent工具间串行调用,架构的可复用性和灵活性都不够好。


此外,由于具体到了某个垂直场景,而此场景中未涉及到的更多高频场景,如:多轮对话补全信息,信息确认等交互形态没有在首个版本引入;导致高频场景未被满足。


回顾首个版本的Agent平台设计,我认为通过单点垂直场景设计的思路存在一定的局限性,因为这类方式虽然可以帮助我们更好优化某个case的效果,但是我们忽略了对开放性的、长尾的交互场景case的把握;而我认为这却是 AI应用最值得被建设的部分。


而当一个业务较为复杂,涉及多场景时,为了兼顾开放性和输出的确定性,就必然要在整个领域模型设计中厘清封闭性与开放性的部分,并可复用性的部分抽离出来,尽早通过流程解决 <20% 的高频封闭性问题


而开放性的问题要尽可能通过大量的case中分析得出;并通过大模型、Agent prompt人设描述来解决 ≥80% 的简单的任务编排、长尾的多轮对话、任务编排等开放性问题。


04


Agent平台演进后的架构思路


针对 V1.0 版本中遇到的问题,以及参考了市面上的一些行业上的优秀竞品后,整个Agent平台架构也逐渐变得清晰,下图是脱敏后的一个产品架构图,结合这张图也聊聊我对架构的一些思考;以及我对Agent平台未来趋势的判断:



从整个架构来看,AI平台层是核心的工程化主体的部分,而 AI 平台层又可以分为:应用构建器、引擎层和平台安全层;


应用构建这一层我们其实做了一个相对创新的工程化设计,在工具(Action)封装了一层技能包(Skill);一个Agent可支持多个技能包(Skill)。


这样做的目的是来自于我们对 Agent 智能体的定义:我们认为ToB场景下 Agent是多个复杂业务场景的集合,而技能包代表了某一类单一维度场景;例如【智能客服助手】是一个智能体,而【工单处理】和【咨询服务记录】就是2个场景,而技能包的作用是基于Agent Prompt的“场景预分拣”,通过Agent Prompt定义的能力边界(Scope)和编排指令(Instruction);在保证Agent解决开放性问题的同时,能够控制场景的边界;


通过这样的架构设计,在【工单处理】技能包中,我们可以将基于上述场景,将【上下文会话信息提炼】【工单新建】【工单查询】作为3个工具(Action);这样可以灵活支持调用多个,编排等灵活场景;


应用构建器的下层是推理引擎层(Reasoning Engine),其核心是结构化提示工程设计,将提示词能力拆分为Agent Prompt、意图识别/分类(Classify)、指令(Instruction),并开放给用户进行调试和优化;确保搭建的多个应用场景的输出效果。


AI 平台层的底层由模型层支持并与平台能力层,这样平台能够提供灵活的模型切换能力,同时开放了企业自有模型的对接能力;这样从平台的角度,我们在资源投入的策略上除了少数高频的垂直通用场景(如CRM数据查询)外,尽可能少的在模型层优化训练的投入,专注在我们的优势场景,AI PaaS层应用建设上,且也能满足更多定制客户的诉求。


最后聊一聊平台接入层,在平台接入层我们不仅对内部通道和业务开放了Agent Service 接口;在中远期,我认为和主流协同效率工具的结合将会是大的机会点,所以与外部通道的合作会是未来的主要方向。


从我对CRM效率工具的理解上看生成式 AI 带来的是信息组织和处理效率的提升,短期来看,其工具的本身应该是人的延伸,他应该在最合适的时机出现,并给予用户需要的信息。而这一切依赖的是系统或终端对单一用户的理解,并形成专属于当前用户信息组织形式。


上面一段话比较拗口,但是我举个例子就能够明白,比如每个人对一本书或一段消息的解读是不同的,这取决于你过往的经历,当下的处境以及你看待事物的角度。而这些信息将会以记忆的形式存储在最懂你的个人数字助理中,而这样的数字助理,未来将最终收敛为2个,即生活助理和工作助理。


这样的信息记忆可能未来不完全掌握在作为垂直业务的助理中,更多会和主流的效率工具终端做结合。




05


写在最后,聊聊Agent生态


上述关于Agent的主要内容已经基本做了一些介绍,最后我想把前面埋下的伏笔抛出来再和大家聊聊,还记得我最早的那张坐标图吗?


有的读者一定会有一个疑问,为什么灰色的待做部分,没有和下面主流云厂商完全重合?我个人大胆的猜测,未来在垂类的Agent平台,当他的体量足够大,就会涌现更多的垂类应用开发进来,形成自己的小范围Agent生态。而这也是未来希望打造的,不同于主流平台的差异化竞争力。


而就像前文中提到的,如果假定技术奇点未知的情况下将应用的创造更低成本、低门槛的开放给用户,会让平台型产品更加平滑的接近技术奇点。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询