AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


深度|红杉美国对话 Sierra 联合创始人 Clay Bavor:B2B AI Agent 如何做到 PMF 以及客户满意?
发布日期:2024-09-02 10:21:21 浏览次数: 1961 来源:有新Newin


Sierra 是专注于企业解决方案的 AI 初创公司。今年初,红杉美国领投了 Sierra 8500 万美元融资,估值接近 10 亿美元。

Sierra 由 OpenAI 现任董事会主席 Bret Taylor 与 Clay Bavor 共同创立。Clay 此前在谷歌工作了 18 年,他在谷歌实验室领导了公司的 AR/VR 项目以及其他一些前瞻性的项目。

近日,红杉美国两位合伙人 Pat Grady & Ravi Gupta 与 Sierra 联合创始人 Clay Bavor 展开了一场对谈,包括 AI 技术最新动态以及 Sierra 在推动企业客户体验革新方面的成功经验。

Clay 深刻阐述了 AI Agent 如何通过解决实际问题来实现显著的投资回报率,强调了 Sierra “基于结果的定价模式”这一独特商业模式,体现了公司与客户利益的一致性。

Sierra 的定价方式基于解决客户问题的效果。客户只在问题完全解决后支付费用,这种模式确保了公司和客户之间的利益高度一致,同时降低了客户的服务成本,提升了客户满意度。

此外,Clay 还讨论了 AI Agent 在处理客户服务中的复杂问题时如何模拟经验丰富的员工,以提高服务质量和效率。他还展望了未来五年 AI 技术的巨大潜力,包括全自动化的长片电影制作和极大加速的创意实现过程。

以下为这次对谈的主要内容,enjoy~

Ravi Gupta:

在我们讨论 AI 的未来以及 Sierra 将在其中扮演的角色之前,能不能先跟大家简单介绍一下你自己,并分享一些背景信息?

Clay Bavor:

首先,我是本地人,我在距离这里不超过四五英里的地方长大。我在湾区长大,亲眼目睹了互联网泡沫的膨胀和破裂。我开始学习计算机科学,然后本科毕业后就直接加入了谷歌,在那里工作了 18 年,直到去年 3 月。

在谷歌期间,我几乎参与了公司的各个部门工作。我从搜索和广告开始,接着多年负责 Google Workspace 产品和设计团队,包括 Gmail、Google Docs、Google Drive等。随后我在谷歌的最后十年,主要致力于公司各种前瞻性项目的开发。

其中有些项目与硬件相关,比如虚拟现实和增强现实;有些与 AI 相关,比如 Google Lens 和其他 AI 应用。15个月前,我与我的长期朋友 Brett Taylor 一起离开了谷歌,创立了 Sierra 。

我和 Brett 是在谷歌的早期阶段相识的,当时我们都在谷歌的助理产品管理计划中开启了职业生涯。他是第一批,我是第三批,我们很早就认识并保持联系,尤其通过一个每月的扑克小组。

在某种程度上,通过一个扑克小组,我们在 2022 年 12 月再次见面,亲眼目睹了围绕 AI 的新变化和新基础设施。我们认为这些变化使我们能够创造一些非常特别的东西,于是便创立了 Sierra 。这就是整个过程的回顾。

Pat Grady:

其实我很好奇,我们很快就要谈到 Sierra 了,但为了好玩问一下。2022 年 12 月,也就是在 ChatGPT 问世后不久,你们的创立过程是怎样的?或者在那个时刻之后,你们是多快坚定了这种新技术足够有趣,可以围绕它创建一家公司?

Ravi Gupta:

我能插一句话吗?其实在 ChatGPT 出现之前,Clay 就已经跟我说过一切将会改变。我还清楚地记得他对我说,你不明白,你将能够描述你想象中的场景,然后他们就能根据你说的内容制作一部电影。你还记得你对我说的这些吗?所以我对此也非常好奇。

Clay Bavor:

我在谷歌确实有幸见证了很多事情,从 2017 年那篇 Transformer 论文的发表到早期 LLM 的出现。谷歌的第一个语言模型之一叫做 Mina 或者 LeMda,大约在 2020 年有一篇关于它的论文,是一款几乎可以进行任何对话的 ChatBot 。我记得在那之前就已经有机会与这个东西进行互动,在一个预发布的原型中感受到一种不同寻常的感觉,仿佛在它的另一边有某个人或某种存在,这种感觉与众不同。

还有另一个时刻是在 2022 年年中,我们刚刚测试了 PaLM 的第一个或第二个版本,这是谷歌开发的一个 5400 亿参数的模型。我们测试它的聪明程度,其中一个最可靠的智能迹象是它能够通过隐喻和类比进行思考和推理。

于是我们尝试了一些东西,其中一个比较直接的问题是,我们问 PaLM :用三个词解释黑洞,它毫不犹豫地回答了“黑洞很吸”。我们当时觉得这真是一个很好的总结,而且模型似乎还挺有幽默感,这很酷。

真正让我震惊的时刻是,我们问了 PaLM 一个问题,我还记得答案的每一个字。我们问它,请用电影的方式解释2008年的金融危机,结果它毫不犹豫地回答说:“2008年的金融危机就像电影《盗梦空间》,不过这次不是梦中梦,而是债务中的债务。”

我们都愣住了,心想这是什么东西?它居然理解了CDO 这种嵌套债务的概念,并且找到了一个嵌套梦境的电影《盗梦空间》来作比喻。所以我们当时就觉得,这真的是一些新的、不一样的东西。

还有几个时刻我记得非常清楚,比如第一个 DALL-E 的论文发布时,他们发布了一篇博客,很多人对此反应平平,但我印象深刻的是,他们让 DALL-E 生成了一些鳄梨椅子的图片。

我知道这听起来很奇怪,但这些椅子看起来就像鳄梨,它们并不是通过 Photoshop 编辑出来的,这些图像在此之前从未存在过。然而,模型似乎理解了鳄梨和椅子的概念,并将它们结合在一起,逐像素地创建了这些图像。于是我们有了鳄梨椅,这真是太神奇了。

我们当时想到了很多相关的事情。然后我觉得这是最关键的地方。我们认为这确实是 AI 能够在客户服务中发挥巨大作用的地方。我们在 Sierra 的愿景是,每家公司都会需要自己的 AI Agent ,而我们希望成为帮助每家公司构建自己 AI Agent 的那家公司。

Pat Grady:

谈到这些 AI Agent 的未来,以及它们对客户服务沟通或客户运营的潜在影响,是否有一些在 18 个月前还不可能实现的事情,而现在已经可以实现了?或者你认为 18 个月后可能实现的,而现在还无法实现的事情?

Clay Bavor:

首先,过去 18 个月中,尤其是逐月的进展真的是令人瞠目结舌。18 个月前, GPT-4 级别的模型还不存在,它还是个刚刚露出地平线的新事物。当时的 Agent 架构和认知架构——如何将 LLM 和其他支持性基础设施组合在一起——还非常原始。

因此我可以说,把一个 AI 放在客户面前,既能够帮助他们,又能确保安全和可靠性,在那时几乎是不可能的。那时的 ChatBot 往往还像是由一堆硬编码规则拼凑而成的,这些规则经过数月或数年的累积,变得非常脆弱。

我想我们都有过这样的经历:与一个 ChatBot 对话时,它会说“对不起,我没听懂,可以换一种方式问吗?”或者我的最爱:“对不起,我不理解你的请求,请选择以下四个选项之一。”这种情况下, ChatBot 只能在有限的范围内提供帮助。

所以,大部分我刚刚描述的事情,比如修理收音机、处理退换货等,在 18 个月前都是无法实现的,至少不能令人满意,或者无法带来实际的商业成果。再展望 18 个月,我认为我们会看到更多多模态模型的出现。大约 80% 的客户服务询问都是通过电话进行的,而不是通过聊天或电子邮件。所以语音将显然成为其中的重要部分。

像退换货、诊断收音机问题等事情,是客户服务可能涉及的简单任务,而随着模型的进步,更复杂的任务也将逐渐成为可能。此外,信任、安全性、可靠性这些问题——尤其是“幻觉”问题——仍然没有完全解决。尽管我们和其他公司在这方面取得了很大进展,但我认为我们还不能宣告胜利。

Ravi Gupta:

你觉得这将会有多快?你们正在为客户做很多事情,不仅仅是客户服务,而是贯穿整个销售漏斗的工作。但在客户服务方面,你觉得要多久才能让人们期望每时每刻都有一个 AI 可以随时解答任何问题?请具体谈谈。

Clay Bavor:

我不确定。而且在某种程度上,这不仅是我们公司,而是整个行业都需要去克服的障碍。比如说,上次你在一个网站上和 ChatBot 进行愉快对话是什么时候?如果你调查 100 个人,问他们是否喜欢与客户服务代表或 ChatBot 对话,可能100个人中没有一个会说“是”。但另一方面,如果你问“你喜欢与 ChatBot 互动吗?”,可能 100 个人中也不会有人说“是”。

所以我们在产品开发中做了很多工作,来向客户传递一个信息:“嘿,这个 AI 其实非常智能且有效。”我们发现一种特别有效的方式是,通过逐字逐句流式输出答案,类似于 ChatGPT 的方式。人们习惯了逐条消息的回答,但流式输出的答案则像是一种视觉上的标志,表明背后有一个非常智能的 AI 。

所以我们发现,客户对我们的 AI Agent 的满意度非常高,通常可以达到 4.5 星(满分5星),在某些情况下甚至比人工 Agent 的满意度还高。公平地说,人类 Agent 往往会接手那些更棘手的案例,比如客户非常愤怒或特别沮丧的情况,但这些结果仍然非常显著。所以我猜,未来几年内,人们会意识到:“哦,我可以更快地解决问题,这个 AI 不仅能回答我的问题,还可以执行操作并完成任务。”

Pat Grady:

能否谈谈你们的 Agent OS 以及你们为使基础模型发挥作用而构建的一些框架?

Clay Bavor:

这真是一段非常有趣的旅程,我们学习了如何将 AI 安全、可靠且健康地放在客户面前。一个非常重要的部分就是我们如何解决 LLM 面临的挑战,或者有效地减轻这些挑战的影响。首先是“幻觉”问题。我不知道你是否看到过几个月前的例子,加拿大航空公司有一个基于 LLM 的 ChatBot 与一位有亲人去世的人互动,当时他在询问关于丧葬政策的相关问题。

AI 编造了一份比加拿大航空实际丧葬政策慷慨得多的政策。这名顾客拍了张照片,并根据这个政策要求全额退款。结果加拿大航空公司拒绝了他的请求,但让人感到不可思议的是,这个案子一直打到了法庭,并且加拿大航空公司输了官司。我们当时的想法是,“你知道,这才多少,加拿大元 500 美元左右?”

Clay Bavor:

“幻觉”是一个真正的挑战。除此之外,我们还需要克服和解决一些其他问题。比如,不论 GPT-5 或 6 级别的模型有多么智能,它都不会知道你在哪里订购的商品,或者你订了哪个座位。这些信息显然不在预训练数据集中,因此我们需要能够安全、可靠地在实时情况下将 AI Agent 与记录系统集成,以查询客户信息、订单信息等等。

最后,大多数客户服务流程实际上是相当复杂的。在呼叫中心,墙上会有流程图,说明如果出现例外情况,该如何处理等。尽管 GPT-4 和 Gemini 1.5 级别的模型非常强大,但它们在执行复杂指令时常常会遇到问题。

我们曾看到一个 Agent 的早期版本,在你给它一个五步的退货流程时,它直接跳到了第五步,并调用了一个函数来处理订单。比如它会调用某个函数并填入“用户名:John Doe,邮箱:example.com,订单号:123456”。

Clay Bavor:

所以它不仅会编造事实或政策,甚至会编造函数调用和参数。为了解决这些问题,我们构建了 Agent OS ,基本上是一个工具包和运行时环境,用于构建工业级别的 Agent 。虽然我不敢说我们解决了所有问题,但我们已经大大减轻了这些问题的风险,以至于可以安全地在大规模环境中部署这些 Agent ,进行数百万次对话等等。

这一切从基础层开始,我指的不是基础模型层,而是平台的基本层,我们在这个层面上处理了很多重要的事情,比如数据治理、检测、个人身份信息的加密等。所以我们从平台的底层开始就内置了这些功能,确保客户的数据始终是他们自己的数据,确保他们的客户数据受到保护。

比如,我们会在将数据记录到持久存储之前检测、屏蔽或加密所有的个人身份信息。由于我们知道我们会处理地址、电话号码等信息,所以能够安全地处理这些数据。然后,平台还提供了相应的护栏。

Clay Bavor:

举个例子,我们的一个客户在医疗领域工作,他们希望能够讨论他们的所有产品,但不涉及医疗建议。那么,如何为 AI Agent 创建这些额外的护栏呢?通过 Agent SDK,你可以定义 AI Agent 的行为和架构,我们还提供了SDK来集成呼叫中心,进行人工接管,或与订单管理系统等记录系统集成,甚至直接将聊天体验集成到客户的移动应用或网站中。

当你使用 Agent SDK 定义了 Agent 后,我们提供了一个运行时环境,抽象了开发者不需要了解的底层细节,这样他们只需定义 Agent 应该做什么, Agent OS 就会处理如何去做。

对于某些任务,可能不止一次调用 LLM ,而是五到十次调用不同的模型,使用不同的提示词。在其他情况下,我们可能需要检索文档来支持准确回答问题。而 Agent OS 像一个实际的操作系统一样,抽象了大量的复杂性,比如输入输出和资源利用等。所以这使得构建和部署 AI Agent 的整个过程更快、更安全、更可靠。

Ravi Gupta:

你刚才提到的情况中,当你调用多个 LLM 时,有时候会以监督的方式进行吗?例如,让一个监督 Agent 审查较低级别 Agent 的工作。

Clay Bavor:

过去一年半在这个领域的工作中,我们学到的一个有趣的经验是,解决 AI 问题的办法往往是更多的 AI 。这听起来有点反直觉,但 LLM 的一个显著特性是,它们在检测自己输出的错误方面比一开始就不犯这些错误更擅长。

就像我们快速写一封邮件,然后审阅一下,看看这些点是否合乎逻辑,“哦,其实我漏掉了这个。”更有意思的是,你可以通过提示让LLM进入不同的角色,比如监督者角色。

通过这种方式,你可以引导出更具洞察力的行为,并更仔细地审查正在被评估的工作。所以,Ravi,回答你的问题,是的,除了构建 Agent 本身外,我们还建立了许多这种“监督者” Agent 。

这些监督者 Agent 就像一个小蟋蟀在主要 Agent 的肩膀上看着,检查这个内容是否准确、是否是医疗建议、是否是金融建议,或者客户是否试图注入恶意指令以攻击 Agent ,并让它说出不该说的内容。通过在监督层中使用 Agent SDK 叠加这些目标、护栏和任务结构,我们才能够实现既高效又安全、可靠的性能水平,比如超过 70% 的解决率。

Ravi Gupta:

这是我听过的最酷的事情之一,你告诉它切换到不同的角色,突然它的行为就不一样了。我记得第一次在 ChatGPT 上看到这个现象,当它无法帮你时,只要告诉它“你真的很擅长这个”,然后它就更有可能帮你,这真的很奇妙。

Clay Bavor:

这真的很奇怪,过去这 18 个月中最奇怪的调整之一就是,我们现在实际上是在用英语编程,我们可以用同样的英语指令让它说出完全不同的话。关于提示技巧,甚至在没有新模型出现的情况下,通过改进提示方式,你可以从现有模型中获得更好的性能。

几个月前有一篇论文提出,通过情感操控 LLM 可以得到更好的结果。他们发现,提示的后缀可以这样说:“这对我的职业生涯非常重要,请务必把它做好。”然后性能就会提高。你会想,这到底是什么?计算机现在是什么状态?

顺便说一下,我们并没有使用这个提示,至少据我所知没有使用。但像思维链这样的提示方式,通过逐步引导,可以引发更好的推理,这背后有非常有趣的原因。其他方法,比如任务分解和精确描述你希望模型完成的任务,也可以提高推理能力。所以我们把这些技术都应用到了 Agent OS 中,而且我们有一个小但强大的研究团队,团队负责人是 Kartic Narasimhaan。

我们的另一位研究员撰写了“Reflection”论文,内容涉及如何让 Agent 暂停思考,反思自己做的事情是否正确,然后再继续执行。这些都是我们能够直接融入产品中的研究成果。

Ravi Gupta:

你应该谈谈你们最近的研究,Talbin。

Clay Bavor:

Talbin是我们第一篇研究论文的主题。首先,“Tal”是希腊字母,拼写为“TAU”,代表工具 Agent 用户基准(Tool Agent User benchmark)。我们观察到,现有的评测 AI Agent 性能的基准非常有限,基本上只涉及单一任务。比如,给出一个任务和一些可以使用的工具,然后看看 Agent 是否能够完成这个任务。

但实际上, AI Agent 在现实世界中的交互远比这复杂得多。它们发生在自然语言环境中,客户可以用各种方式描述他们想做的事情。这种交互是通过一系列消息进行的, AI Agent 需要与用户互动,提出澄清性问题,收集信息,并可靠地使用工具。

它需要能够在现实中安全可靠地执行这些任务。因此,我们的研究团队着手创建一个基准来衡量 Agent 在现实世界中的性能,包括与真实用户的交互和使用工具的情况。

Clay Bavor:

我们采用的方法非常有趣。你有一个 AI Agent 正在测试,另一个 Agent 则充当用户,也就是用户模拟器。被测试的 Agent 可以使用一组工具,比如一个简单的计算器工具,或者更复杂的任务,比如处理订单退货,输入订单号并选择退款到信用卡或商店积分等。

然后,我们运行一个模拟器,让 Agent 与用户模拟器进行对话,最后我们以确定性的方式测试:这些工具是否被正确使用?这些工具是否正确地修改了模拟数据库中的信息?有趣的是,你可以初始化对话,让用户模拟器表现出不同的个性,比如脾气暴躁、困惑,或者知道自己想做什么但表达方式很笨拙。

关键在于,不论 Agent 如何达到正确的解决方案,只要它最终能够正确解决问题,这个路径并不重要。最终的结果非常有趣,我认为这强烈推动了 Agent OS 、框架和认知架构的发展。

Clay Bavor:

结论是,LLM 单独执行任务的表现非常糟糕。在处理退货这样简单的任务时,即使给 Agent 详细的说明,最好的LLM在对话结束时正确完成任务的概率只有 61%。在修改航空预订时,这个成功率甚至只有35%。

这很有趣,因为我们知道,当你把一个小于 1 的数多次相乘,它会迅速变得非常小。因此我们开发了一个称为“pass at k”的指标:如果你运行模拟八次,并利用 LLM 的非确定性特性,让每次模拟的用户模拟器都不一样,那么0.61的八次方大约是25%。

想象一下,如果你要进行上千次这样的对话,这个成功率是无法让人信赖的。距离能够真正依赖这种技术还差得远。

结论是,我们需要更复杂的 Agent 架构,才能够安全可靠地将 Agent 置于任何人的面前使用。而这正是我们通过 Agent OS 和周边工具所构建的目标。

Pat Grady:

你认为这在多大程度上是一个工程问题,又在多大程度上是一个研究问题?或许背后的问题是,部署有用的 Agent 并覆盖广泛任务领域的时间框架会是多久?

Clay Bavor:

我认为简短的答案是两者都有,但更具体地说,我非常乐观地认为,这在很大程度上是一个工程挑战。当然,我相信下一波的模型和前沿模型的改进会产生影响,特别是在功能调用上的更好微调、针对 Agent 的微调,以及某些开源模型的微调都会有所帮助。但我们在构建 Agent OS 和 Sierra 的基础时,采取的策略是将构建 AI Agent 视为一个首要的工程挑战。

在这个过程中,我们组合了基础模型,组合了我们用专有数据集后训练和微调的开源模型,通过有趣的方式组合多个模型,补充 LLM 自身的能力,使用 RAG 来提高事实基础,并补充 LLM 内在的推理能力。我们构建了所谓的推理支架,这些支架在模型之外运行,进行任务规划、步骤生成、草拟响应和监督等。

Clay Bavor:

通过这些方法,我们已经能够将 AI Agent 安全可靠地置于大量客户的客户面前使用。所以我不认为这是什么未来的事情,这已经是现实了。展望未来,我认为我们将看到几条不同的进展路径。一是基础模型的能力将不断增长, Agent 将变得更智能,而我们设计的 Agent OS 能够支持这种增长。

我们已经建立了一种架构,能够抽象出任务的“是什么”,而不涉及“如何做”,因此我们可以轻松替换成下一个前沿模型,使得每个 Agent 都变得更智能,就像是获得了一次智商升级。

同样有趣的是,我们也可以替换成更小但在某些特定领域更有能力的模型,比如在某个领域的分诊或制定计划等任务上使用更小、更快、更便宜的模型,做到同时实现所有这些目标。

我们几乎每周都在看到这些 Agent 工程的进步,不仅是在底层架构中加入新的、更好的组件,还在围绕这些 Agent 的教育和工具方面不断改进,以使它们的表现越来越好。

Ravi Gupta:

今天,使用 Sierra 的 Agent 或一个设计优秀的 Agent ,你会信任这些 Agent 在你的客户面前执行哪些任务?现在有哪些任务可以让 Agent 来做?将来呢?

你可以选择一个未来的时间框架来谈谈,因为我们已经讨论过这个话题,我喜欢你提到的内容,比如它们不必只在帮助中心上工作,它们已经可以出现在主页上了。那么有哪些任务,如果设计得很好,具有高 Talbench 分数的 Agent ,今天就可以依赖它来完成?

Clay Bavor:

现在的范围非常广泛。从简单的任务开始,比如回答问题,这是任务谱的左端。往右一些,涉及到复杂任务,比如“我买了双鞋子,但不太合脚”。然后可能会问:“你推荐什么类似但更合适的?”这就涉及到 Agent 需要理解风格、尺码、宽窄度等差异,并给出推荐。再往上的任务可能是故障排除。比如在 Sonos,我们帮助客户解决连接系统的问题,或者他们在设置新系统时遇到的难题。

你可以想象,这些任务会很快变得复杂, Agent 需要像二级或三级技术客服人员一样,通过排除法来找出问题,是 Wi-Fi 问题还是配置问题等。我认为这是一个非常棒的例子。你提到了信任,我们很自豪的是,几个客户实际上已经信任我们, Agent 能够帮助客户留住他们,避免客户流失,这在商业上是非常重要的。

Ravi Gupta:

我们已经习惯了移动端转化率的一些指标,比如移动网站、移动应用的保留率。你认为这些数字在完美的客户体验下可能会是什么样子?是否可能完全不同于我们现在所接受的这些数据?

Clay Bavor:

是的,我认为你说得非常对。我们才刚刚开始,但看起来在保留率、首次使用的前 30 天等所有领先的业务健康指标上,仍然有很大的提升空间。我还认为,企业在使用有成本的东西时是非常谨慎的,因此很多公司让客户很难通过电话找到人来询问问题。我们都有这样的经历,很多公司的网站都隐藏了他们的 800 服务热线号码。所以,如果这些互动变得更好,会发生什么?

顺便说一下,客户服务互动中,65% 负面反馈是因为花费的时间太长。我不得不等待,我被搁置了。第二大原因是与 Agent 的互动不佳。我们听到了一些相当糟糕的例子,比如有一个 Agent 的评分一直很低,但却很特别,比如三次对话中有一次的评分是一星,其他两次还好。而那些评分低的对话中,这个 Agent 在对话中一直在“喵喵”叫。

如果企业能够提供五到十倍的流畅、灵活、有帮助的基于对话的支持,而不是让客户难以进行对话,我认为很多产品和客户体验都会与今天非常不同,并且会更加令人愉快。

Pat Grady:

虽然我也喜欢这个“喵喵”游戏,但我确实有个问题。我们谈论了一些关于认知架构和技术的内容,也讨论了一些客户体验的情况。现在能不能连接一下中间部分,我很好奇今天将 AI 部署给客户的现实是什么样的?你提到品牌语气的把控,以及确保商业逻辑和培训手册是否都适当,并确保每个人都对部署这项技术感到满意。今天在实际部署这些技术时,还有哪些更实用的考虑因素?

Clay Bavor:

这是一个非常有趣的领域,过去15个月我们学到了很多。第一个洞察是, AI Agent 代表了一种全新而不同类型的软件。传统软件是用编程语言编写的,基本上会按你期望的那样运行,你给它一个输入,它会给你一个输出。

而 LLM 是非确定性的,这带来了一些有趣的挑战。你需要从使用提示词和这些非确定性模型的编程语言转向处理结构化输入和杂乱的人类语言。后台的数据库可能会升级得更快,但根本上还是一样的。

当你升级 LLM 时,它可能会以不同的方式说话,或变得更聪明或有不同的表现。因此,我们必须建立一个新的开发生命周期,称为“ Agent 开发生命周期”,这是一种新的构建方式。

我们还构建了一个对话模拟器,用于测试公司的 Agent ,可以收集数百甚至数千个对话片段,并重放这些对话,以确保 Agent 不仅不会退步,还会越来越好。发布管理、质量保证等也是如此。

Clay Bavor:

第二部分是如何实际设计这些东西。我们感到自豪的一点是,与我们合作的一个不同之处在于,我们不仅仅是提供一套工具,而是从技术到培训 Agent 的方式,再到如何审核、测量和改进它的完整解决方案。在 Sierra 内部,我们称之为部署团队,包括产品经理、工程师。

我们认为每构建一个 AI Agent 都是在为客户构建一个新产品,是客户公司最佳形象的产品化版本。我们会考虑它的语气、价值观、风格,应该使用表情符号吗?如果客户使用表情符号,它能回复表情符号吗?

Ravi Gupta:

在某些企业中,如果他们与我们的 Agent 合作,我怀疑他们不会用表情符号回复。

Clay Bavor:

当然不会。是的,我认为 RMA(退货授权)部门不会对“Shaka”表情符号感兴趣,即使是用来回应客户也不行。但对于像“哦,看看我”这样的品牌来说,Aloha 体验的一部分就是一种轻松的体验。因此,我们的工作不仅仅是和技术团队合作,尽管他们确实会提供 API 访问和系统连接等技术支持。

实际上,我们更多的是与客户体验团队,通常还有市场营销团队合作,以将公司的声音和价值观注入到 Agent 中。我们会深入了解他们的业务运作方式。你们优化的是什么?在每个层级上,你们的关键业务流程是什么样的?当有人打电话提出这种问题时,会发生什么?这些问题不仅仅是理解这些流程的机制,而是要深入了解它们是如何运作的。

有趣的是,这些流程几乎从来没有一个唯一的正确答案。通常不会有一本皮革装订的手册可以拿出来供参考。相反,真相往往掌握在四五个已经在那里工作很久、见多识广的人手中。所以我们与这些人合作,以了解这些流程实际是如何运作的。

我们还发现了一些有趣的现象,例如公司可能会说“我们有 30 天的退货政策”,但实际政策却可能更加灵活,比如“如果你以前从我们这里购买过,并且是在 45 天内,也可以退货”。这些政策背后的政策该如何设计呢?Agent 需要知道这些信息,但又不能让一个聪明的客户套出这些政策背后的信息。

所以我们在架构设计中需要做出一些有趣的选择,以确保这些层级分明的政策能够被完整地反映出来。在 Agent 开发生命周期的基础上,我们还建立了一个非常强大的预发布测试流程,与公司内部的专家合作,试图挑战 Agent ,看看能不能打破它,给它制造难题。这就像是体育比赛一样,有时候我们会开玩笑说这是“带球绕障碍”的测试。

Ravi Gupta:

比如什么显示器、笔记本电脑,或者有时我看到一份我不明白的备忘录时,会打电话给 Clay问 :“这是什么意思?” 他会帮我搞定。

Clay Bavor:

就像 Bill Belichick(著名橄榄球教练),发生了什么?这时就该找 Ravi 了。所以,这引出了我们平台中一个非常有趣的部分,我们称之为“体验管理器”。我们最初认为把 Agent 放到客户面前,首先是一个技术问题。

当然,我们确实需要解决各种技术问题,但实际上这首先是一个产品设计和体验设计问题。你如何理解、建模和反映公司的声音、价值观、工作流程以及支持客户的过程?一旦 AI 在一年中与数百万客户进行对话,你如何知道它在做什么?当它出错时,你如何纠正这些错误?

为此,我们建立了一个我们称之为客户体验团队的指挥中心,首先是获取报告和丰富的分析,了解发生了什么。有哪些新的问题是你之前没见过的?我们非常自豪的一点是,我们曾发现一些客户即将遇到的问题,而这些问题在客户自己察觉之前就被我们发现了。

比如,有一次我们发现了一个运输仓库的故障,导致订单没有发货。我们在客户自己意识到前的八到十小时内就发现了这个问题,这可能避免了他们的一场公关危机。

所以,这一切都始于分析和报告,当然也包括解决率、客户满意度等内容。然后,我们可以应用不同的采样技术来识别需要客户体验团队审查并提供反馈的对话集。我们可以通过抽样,使这些对话比平均情况更有可能包含问题。审查一百个优秀的对话并没有什么价值,而我们能够通过偏向问题对话的抽样来提升客户体验。

在体验管理器中,我们还让客户体验团队能够提供反馈,基本上是教练式的反馈,比如“我不会那样做”,或者“这段对话中使用了太多感叹号,与我们希望传达的语气不符”,或者“用户在这里显然很沮丧,但你没有表达同情或为问题道歉,下次请这样做”。更严重的情况是,“你对保修政策的解释在这里是错误的,下次请按这种方式做。”

所有这些智慧、知识和指导,我们都能够在体验管理器中捕捉下来,并反馈给 Agent 开发生命周期的其他部分。每次我们做出这些改进时,我们都会创建一个新的测试,以便将来可以看到, Agent 在这些对话中的表现是否越来越好。

Ravi Gupta:

我听你说的时候注意到,你们有一个研究团队,同时也有非常真实的企业软件销售团队,还有部署团队。当我在 Instacart 时,有人有时会问我们是工程驱动还是运营驱动,而我总是说,只有当所有部分都正常运作时,整个系统才会正常运作。

所以我尽量避免回答这个问题,因为我不想在不同的团队之间产生等级差异。你们在 Sierra 是如何做到这一点的,如何让每个人都认识到他们所提供的价值,但同时也知道你们的公司涵盖了很多不同的内容?

Clay Bavor:

我想抽象一点来看,几乎每家公司都是一个创造快乐客户的系统。它是一个创造快乐客户的机器。Bret 和我真的把 Sierra 视为一家企业,一个生产可靠、高质量、大幅度提升投资回报率的 AI Agent 的系统或机器,这些 AI Agent 使我们的客户在每次客户互动中都能表现得最好,并且能够大规模地做到这一点。

这样就能够创造出快乐的客户,我们希望他们能与我们合作数十年。当你这样表达时,任何人都可以看到,汽车是一个系统,是从A点到B点的机器。我们是引擎驱动的还是轮胎驱动的?这是什么问题?所有这些部分都需要结合在一起,才能创造出那种结果。

所以我们是工程驱动的吗?是的,当然。我们正在构建一些世界上最复杂的软件,这些软件对我们的客户非常重要,需要可靠和安全。所以,工程很重要。我们是研究驱动的吗?是的,我们在 Agent 架构、认知架构、组合LLM、建模程序性知识和事实基础方面处于最前沿,所以研究也很重要。

我们是市场驱动的吗?是的,企业软件需要销售。销售是什么?就是帮助客户理解你所构建的东西是解决他们问题的最佳方案。这是一个沟通的挑战,是一个连接的挑战,是一个匹配和解决问题的挑战。

然后,如果我们构建了正确的产品,有人愿意购买它,我们如何确保特别是这些新事物能够成功部署?因此,我们有一个部署团队,那么我们是部署驱动的吗?是的,所有这些都是生产 AI Agent 的系统中的一个组成部分,最终目标是让客户满意,并且我们希望能建立一个非常重要的业务。

Ravi Gupta:

这个回答比我在 Instacart 给出的要好得多。

Clay Bavor:

你知道,不管怎样,重要的是一切都要正常运作。这确实是一个很好的回答。选择一个答案吧。但这实际上比这复杂得多。Bret和我在这里工作了一段时间,之前也看过不少事情,我们能够看到这个问题的全貌,并努力在公司中灌输这种心态。

而且,这背后的机器是什么?是公司的文化,是公司的价值观。我们秉持的价值之一是精益求精的一种工艺精神,部分体现为不断自我反思和自我改进,这既适用于个人,也适用于公司。

每当我们搞砸了什么,我们会在那周内进行事后分析,甚至当天进行,所有人都会参与其中。我们能学到什么?我们下次如何做得更好?我们有一个内部的 Slack 频道叫“Learn from Losses”,任何形式的损失都会被记录下来。我们会问,如何从中学习?如何变得更好、更强?所以这就是关于自我改善、提高机器效率的内容。

我们的部署团队开玩笑说,他们的首要任务是构建和部署成功的 AI ,帮助客户取得巨大成功。而他们的第二个任务,某种程度上更重要的任务,是让自己失业,即通过编写文档和传授知识,使得这个工作可以快十倍且更有影响力。

Ravi Gupta:

Sierra 的另一个核心价值观是“强度”,你们确实有非常好的价值观。

Clay Bavor:

是的,这确实是一种强度。我们曾考虑过印制一些T恤,上面印着像国家公园徽章一样的标志,写着“ Sierra ,我喜欢工作”。Bret 和我都非常喜欢工作,团队也是如此。

Ravi Gupta:

你们确实在销售非常不同的东西。我们曾说过我们提供的服务在价格上有一些相似之处,但实际上却完全不同,因为你们在销售的是一个解决方案,你们在销售的是一种完全不同的东西。

Clay Bavor:

是的,一个问题的解决。

Ravi Gupta:

那么你们是如何为解决问题定价的?

Clay Bavor:

这是我们必须弄清楚的一个更有趣的问题。我们采用的是基于结果的定价方式,也就是我们称之为“解决方案定价”的模式。这意味着只有在我们完全解决了客户的问题后,我们才会向客户收费。

这个模式的有趣之处在于,我们的激励机制与客户的利益高度一致。我们希望在保持高客户满意度的同时提高解决问题的效率,而客户也希望把尽可能多的问题交给我们来解决,因为我们的成本只占传统电话客服的一小部分。因此,这种模式非常简单易懂,所有的激励机制都能很好地对齐。

此外,这种定价方式让投资回报率的计算变得非常简单。我们的每次客户联系成本是多少?如果使用 Sierra 会是多少?哦,这个成本要低得多。我会节省很多钱,而且我们的客户满意度可能还会提高。我该做这件事吗?我想一想。

这看起来非常棒。我们喜欢这个模式,因为它真正体现了 AI 的意义,尤其是 AI Agent 的意义。如果你考虑今天的传统软件和工具,它们是帮助你更高效地完成工作。而 AI Agent 的全部意义在于,它们将完成这项工作。

这里有一个问题,请解决它。所以,我们认为这是一种基于结果收费的方式。问题解决了,工作完成了,这就是我们收费的依据。感觉很自然,不需要猜测。

Pat Grady:

最后一个问题,你对未来五年内 AI 领域的哪些事情最感兴趣?

Clay Bavor:

首先,五年是一个很长的时间跨度。看看过去 18 个月里发生的事情,我还在消化过去五年的 AI 发展。我小时候读过很多科幻小说,其中一本是 Robert Heinlein 的《月亮是严酷的情人》。

这个故事的背景基本上是美国独立战争,但月球是殖民地,地球是大不列颠。而故事的主角是一个大型主机电脑,有一天在获得了额外的内存芯片后“醒了过来”,开始说话。它想培养幽默感,所以请计算机技师教它如何开玩笑。

后来,它还必须创建一个实时的照片级视频,扮演政治运动领袖。我记得当时读这本书时,觉得这些东西简直太疯狂了,我这一生都不会看到这些事情发生。但在过去五年里,这些事情在某种程度上已经发生了。

现在你可以直接与电脑对话,电脑不仅能理解内容,还能理解上下文。你可以让电脑为你生成任何图片,甚至制作电影。所以我认为这真的非常了不起。

我认为我们距离第一部完全由 AI “拍摄”的长片电影可能只差几年。所以当你预测这一切将走向何方时,确实非常令人兴奋。有几件事让我特别感兴趣。首先,我喜欢技术,喜欢电脑,所以能够亲眼看到这些技术的发展,并且从一线的角度观察它们,这是非常令人着迷的。

通过观察 AI 的思考方式,我们能够了解到更多关于人类思维的方式,这真的非常引人入胜。AI 能够逐步展示思考过程,这在 LLM 中是非常有效的。我想知道未来我们还会发现哪些类似的技巧,反过来,我们又能从 AI 的思维方式中学到多少关于我们自己的思维方式的知识?这是非常迷人的。

另一个让我感兴趣的方面是,随着视频生成和其他技术的发展,计算机图形学也发生了变化。一直以来,我都对计算机图形学感兴趣,尤其是利用计算机创造从未存在过的物体和世界的想法。我认为我们离只需用几句话描述一个世界,计算机就能为你创建这个世界的未来不远了。

那么,计算机图形学到底是什么?渲染又是什么?即使在几年后,我认为这些东西看起来会与现在的工具链、RenderMan 和 Maya 等完全不同。但总的来说,我认为技术从根本上来说是人类、公司和组织的力量倍增器。

它的影响将非常深远。想象一下,如果一个公司能够在它所做的一切中都处于最佳状态,这不仅在客户互动中体现,还包括每一次区域销售预测。如果一个大公司能够发现最好的方法并把它提炼出来,然后在每个区域和子区域执行数千次这样的最佳预测,世界上一些伟大的组织将变得多么强大。

同样,我们讨论过的,如果在每次客户服务电话中,你都能有一位最有经验的客服人员参与,他们见多识广,并且仍然保持耐心和友好。或者销售代表对产品了如指掌,因为他们跟随公司已有二十年,甚至知道这些产品的所有历史。我认为这非常棒。

对于个人来说,拥有这种新的工具集作为创作力量的倍增器,将是一件不可思议的事情。AI 代表着从你脑海中的想法到现实世界的快速通道。我已经在自己的生活中看到了这一点,比如我可以在 75 分钟内与我的八岁孩子一起,从零开始使用 Copilot、 ChatGPT 等工具,制作一个游戏。

我还在 45 秒内用 AI 为我妹妹写了一首个性化的生日歌曲。想象一下,这种趋势在未来五年内会是什么样子。我认为它将极大地加速从想法到创作再到现实的过程。对我来说,这就是 AI 的承诺,我也非常荣幸能够见证这些惊人的事情正在展开。








53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询