谁说AI Agent杀死了RPA,UiPath第一个不服!来自头部RPA应用CEO Daniel Dines的深刻洞察
发布日期:2025-01-24 07:19:13
浏览次数: 1535
来源:随机小分队
推荐语
这是来自 UiPath 创始人 Daniel Dines 的深刻分享,关于前沿技术与创业的独到见解。核心内容:1. Daniel 对未来 AI 发展趋势的判断2. 专业领域 AI 应用的可行方案3. RPA 与 AI Agent 并非相互排斥的观点
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
20VC 的播客主理人 Harry Stebbings 邀请了 UiPath 创始人兼 CEO Daniel Dines,Daniel 的创业故事堪称传奇:公司在最初的 10 年间仅靠自举资金运营,营收也仅有 50 万美元。但在找到产品市场契合点后,UiPath 迎来了爆发性增长,先后获得红杉资本、Accel、凯鹏华盈等顶级投资机构的青睐。如今,这家已在纳斯达克上市的公司市值超过 100 亿美元,年营收突破 10 亿美元大关。在这期播客中,这位素来低调的创业者罕见地敞开心扉,不仅分享了他对 LLM、RPA 和 AI Agent 等前沿技术的深刻见解,更首次讲述了自己鲜为人知的个人故事。你能带走的 5 个 take-away
- Daniel 判断 未来 AI 发展趋势将更倾向于专业化分工而非统一大模型, AI 生态将呈现百花齐放格局,因为专业化分工模型比统一大模型更符合市场需求和人类认知规律。企业需根据具体场景选择最适合的专业模型来优化成本和效果。
- 对于专业领域的 AI 应用来说,目前最可行的方案是以开源模型为基座模型进行微调,而不是直接依赖闭源的通用大模型。
- RPA 和 AI Agent 并不是相互排斥的技术,RPA 的应用场景是自动化跨系统的规则型任务,而 AI Agent 更适合处理非结构化的业务场景,在 RPA 领域积累的经验和解决方案,可以被很好地迁移到 Agent 管理中。
- 目前能在企业场景里落地 AI 的公司并不多,很重要的一个原因是大家高估了 LLM 在规则性任务中的表现。即便每个步骤的成功率高达 99%,在长流程中也会出现明显的错误累积。比如在一个包含 100 个步骤的流程中,即使每步的成功率是 99%,也会使得最终的整体准确率降至一个很低的水平。
- 在企业场景中,AGI 的定义也需要重新审视。真正的企业级 AGI 不是在某些特定领域表现出色,而是要在各类任务中都能保持稳定且可预测的表现水平。就像一个智商 120 的普通人,在各种工作中都能保持相对稳定的表现,而不是在某些任务中达到 180 分,另一些却只有 60 分。
原视频链接:https://www.youtube.com/watch?v=1WUuppfscXwAI 时代如何做出差异化产品
纯粹的技术创新并不能保证商业成功,真正的突破口往往在于如何将技术创新转化为解决用户实际问题的产品力。UiPath的早期发展历程很好地诠释了这一点,在2013年,UiPath团队敏锐地发现了一个关键的市场痛点 - 在远程桌面环境下实现自动化操作十分困难。当时的主流解决方案如Blue Prism需要复杂的配置过程,往往要花费两天时间才能完成一个自动化流程的搭建。面对这个问题,UiPath采用了一个独特的技术路径。他们创造性地将OpenCV这个计算机视觉库应用到自动化场景中。这个库原本用于在大图中定位小图位置,UiPath将其改造成了一个自动化引擎的核心功能 - 在运行时通过图像识别来定位和操作界面元素。但技术创新只是基础,产品体验的突破才是制胜关键。UiPath将这个复杂的技术过程包装成了一个简单直观的录制回放工具。用户只需要演示一遍操作流程,比如点击按钮、输入文字,系统就能自动捕获相关元素的图像特征,并生成可靠的自动化脚本。这种方式把原本需要两天的工作量缩短到了短短3-5分钟。这种革命性的产品体验甚至让当时Blue Prism的专家们惊讶得说不出话来。通过这个差异化的产品定位,UiPath在Citrix等远程桌面环境下的自动化这个细分市场找到了突破口,并最终从一个默默无闻的创业公司成长为行业巨头。这个案例告诉我们,在AI时代,技术创新固然重要,但找准用户痛点、打造卓越的产品体验、选对细分市场切入点可能才是制胜的关键。当你的产品能让竞争对手惊叹,这往往意味着你找到了真正的突破口。大模型不会一家独大,而是百花齐放
AI 模型的未来发展路径究竟如何?是走向专业化分工,还是统一的大模型?从目前 Uipath 的实践来看,AI 模型更可能走向专业化分工的道路。他们在处理半结构化文档时选择使用阿里巴巴开源的通义千问模型,因为这个模型在这个特定任务上表现最好。这种选择反映了一个重要趋势:企业会根据具体场景选择最适合的专业化模型,而不是盲目追求大而全的解决方案。从产品角度来看,模型本身并不是全部。真正重要的是围绕模型打造完整的产品体验,包括帮助用户进行文档标注、实时训练模型等功能。这些功能需要精心设计,让用户可以轻松上手。在这样的产品框架下,底层模型是可以灵活替换的。比如发现 Llama 3.3 的表现更好,就可以进行切换,在成本、速度和准确性之间找到最佳平衡点。从人类认知发展的角度看,多模型并存是更符合自然规律的。人脑虽然有通用认知模型,但同时也有很多专门执行特定任务的专业化模型。拿一个看似简单的动作来说 - “拿起杯子喝水”,这其实是我们从小就开始训练的专门技能。我们并不需要每次喝水都重新思考动作细节,而是依靠专门的神经模型自然完成这个动作。所以,Daniel 认为 AI 的未来不太可能像云计算那样形成 AWS、Azure、谷歌云三足鼎立的格局。相反,我们更可能看到一个百花齐放的生态系统,不同的模型各自在擅长的领域发光发热。这种专业化分工不仅能让每个模型在特定任务上达到最优表现,也能为用户提供更灵活、更高效的选择。“开源基座+专业微调”是组合模型的最佳方案
对于专业领域的 AI 应用来说,选择合适的技术架构至关重要。目前最可行的方案是以开源模型为基座模型进行微调,而不是直接依赖闭源的通用大模型。这种技术路线有几个显著优势:首先,开源模型提供了深度定制的可能性,可以根据专业领域的具体需求进行针对性优化和调整。其次,开源模型的成本更容易把控,不会受制于大模型公司的定价策略。最后,采用开源方案可以有效降低对头部 AI 公司的依赖程度,保持技术自主性。当然,选择开源模型最大的问题在于如何保证模型的质量和稳定性。开源社区的模型质量参差不齐,需要仔细甄别和验证。另外还需要在通用性和专业性之间找到平衡点——模型既要有足够的基础能力,又要能很好地适应垂直领域的特殊需求。综合来看,一个比较理想的技术架构是“开源基座+专业微调”的混合方案。以成熟的开源模型作为底层基础设施,在此之上进行针对性的专业领域训练和优化。这样既能保证基础能力,又能很好地满足专业需求,同时在成本和可控性方面也更具优势,这种架构也为未来的技术演进预留了足够的灵活性。如何打造“AI -first”的产品体验?
传统 SaaS 产品的技术架构需要彻底重构,渐进式的功能迭代已经无法适应 AI 带来的巨大变革,产品需要从零开始重建,才能实现真正的 AI-First 体验。这种重构并不容易,最大的挑战不是技术本身,而是放弃已有的成熟技术栈。以UiPath为例,他们花了多年时间来打磨和优化 Windows工 作流引擎,这个引擎已经相当完善。但为了拥抱AI 时代,他们不得不放弃这个老伙伴,转而采用全新的工作流引擎,即便是创始人也在这个决策上犹豫良久,经历了无数次内部讨论和思想斗争。重构的核心是围绕AI重新设计整个系统架构。新的架构必须能够支持AI代理的编排调度,优化人类用户、AI模型以及其他系统之间的交互,最终的目标是打造真正的AI-First产品体验。这不是简单地在现有产品上叠加AI功能,而是让AI成为产品的核心基因,就像 Cursor 这样的产品,它从一开始就是为AI时代而生,AI不是它的功能之一,而是它的本质。这种彻底的重构虽然代价高昂,但却是必经之路。只有从根本上重新思考和设计,才能在AI时代保持竞争力。那些试图用渐进式改良来应对AI变革的产品,最终可能会发现自己越改越难用,越改越不合时宜。RPA 和 AI Agent 并不是死对头
在企业自动化领域,RPA 和 AI Agent 经常被误解为相互排斥的技术。实际上,这两种技术不仅能够共存,更能在企业数字化转型中发挥协同效应。RPA 的最佳应用场景是自动化跨系统的规则型任务。这类任务虽然步骤繁多(可能包含 100 到 200 个步骤),但都遵循明确的规则逻辑。比如根据增值税号的前两位数字来决定后续流程,这些规则实际上是将企业知识编码化,使得自动化流程能够可靠地执行,直到底层系统发生变化。相比之下,AI Agent 更适合处理非结构化的业务场景。在这些场景中,很多决策依赖于难以用规则表达的企业知识,包括大量建立在公共知识基础上的“部落知识”(tribal knowledge)。LLM 并不擅长执行重复性步骤,但在模拟人类处理非结构化信息时表现出色。构建这样的统一平台并非易事。除了要能自动化单个任务外,平台还需要具备管理数千个任务的能力,包括部署、监控、分析、访问控制等功能。虽然 RPA 和 Agent AI 在具体实现上有所不同,但它们的本质都是在模拟人类行为。这意味着它们面临相似的技术挑战,如异常处理、重试机制等。在处理网站加载这样的场景时,系统需要能够应对各种变数,比如响应时间、超时等情况。这些在 RPA 领域积累的经验和解决方案,可以被很好地迁移到 Agent 管理中。这种技术积累的传承,让拥有 RPA 经验的平台在发展 Agent AI 时具有独特优势。AI Agent 企业场景落地的不同阶段
企业在 AI Agent 落地过程中表现出了极为谨慎的态度,令人意外的是,企业用户更倾向于接受系统的简单失败,而不是过于智能化的处理。这种态度源于 AI Agent 表现出的“白痴天才”特征 - 它们时而异常聪明,时而又出人意料地愚钝,这种不可预测性让企业难以完全信任。基于这种现实考量,AI Agent 的落地会经历一个渐进的过程。在第一阶段,AI Agent 将主要扮演推荐者的角色,为人类提供决策参考。接着会进入人机协作的半自主阶段,AI Agent 会完成大部分工作,人类则通过收件箱监控和验证 AI 的处理结果。至于完全自主决策的阶段,可能需要像自动驾驶汽车一样漫长的演进过程。在架构设计层面,基于规则的工作流编排将发挥核心作用。这符合当前企业的工作方式 - 通过规则化的流程来连接和协调不同的工作环节。在这个架构中,规则编排层位于顶层,下面是基于规则的 RPA 系统,以及非规则的 Agent 工作流。数据安全和系统边界是一个关键考量,以美国某大型医疗机构为例,他们明确表示绝不会为了创建 AI 代理而将 Epic 系统中的数据迁移到 Salesforce。这种情况下,更可行的方案是在各自系统内部部署专业化的 Agent,再通过中立的集成层进行协调。这种架构也反映了行业格局的演进趋势。像 Salesforce 这样的垂直平台会专注于开发适用于自身平台的 Agent,而像 UiPath 这样的平台则会扮演“瑞士角色”,提供中立的集成层。同时,由于大多数 RPA 任务都需要跨平台协作,这也为专注于跨系统场景的专业 Agent 开发创造了机会。为什么企业场景的 AI 应用落地一直不尽如人意
这并非技术本身的问题,而是应用方式的问题。目前大多数企业对 LLM 的运用过于简单粗暴,没有考虑到其固有的局限性。LLM 在规则性任务中的表现并不理想。即便每个步骤的成功率高达 99%,在长流程中也会出现明显的错误累积。比如在一个包含 100 个步骤的流程中,即使每步的成功率是 0.99,最终的整体准确率也会降至一个很低的水平。更重要的是,LLM 的输出本质上带有不确定性,对同样的问题可能给出不同的答案。要在企业环境中充分发挥 AI agents 的价值,需要将其置于严格的工作流程框架之下。这种框架包含三个关键要素:流程编排、规则约束和人工验证。以抵押贷款申请为例,当收到客户邮件后,系统会触发一个端到端的工作流程:AI agent 首先处理申请并给出建议,然后转交人工审核,审核结果再触发后续的自动化操作,如在银行系统中完成放贷手续。这与简单的聊天机器人有本质区别。在具体实施中,我们需要从端到端流程的角度来思考,而不是零散地处理单个任务。重点是打造能够连接多个 agents 的企业级工作流,而不是孤立的智能助手。在这个框架下,人的角色将从执行者转变为监督者,主要负责处理和验证复杂的边界案例。随着系统逐步完善,我们可以建立起基于置信度的分级处理机制。以差旅预订为例,当 AI agent 了解了用户的偏好后,可以设定规则:预算在 1 万美元以下的行程可以直接预订,超出预算的才需要人工审核。这样既保证了效率,也确保了关键决策的准确性。不过,打造高质量的 AI agents 仍面临不小的挑战。与传统的脚本编程相比,prompt 工程需要更专业的技能。细微的 prompt 调整都可能带来显著的效果差异,而且输入数据的变化也会极大地影响结果,这使得 Agent 的测试和验证变得异常复杂,远超传统软件开发的难度。AI 会如何带来就业领域的改变
技术变革带来的就业结构改变从来都不是一蹴而就的。以农业领域为例,美英两国从一百年前的农业人口占比 50%,到如今仅剩 2%,这个转变经历了漫长的过程。现在的农业从业者更多是在监督机器工作,而不是直接参与生产。同样的道理也适用于当下的 AI 技术。即便是相对成熟的 RPA 技术,目前在企业中的渗透率也仅有 10-20%。这种低渗透率并非技术本身的问题,而是企业落地的复杂性造成的。要在企业中真正部署 AI 技术,需要建立一套完整的实施方案,这绝不是简单地用 AI 替代人工那么简单。按照目前 LLM 的发展水平,要实现 AI 与自动化的规模化部署,预计还需要 5-10 年的时间。在企业环境中,AGI 的定义也需要重新审视。真正的企业级 AGI 不是在某些特定领域表现出色,而是要在各类任务中都能保持稳定且可预测的表现水平。就像一个智商 120 的普通人,在各种工作中都能保持相对稳定的表现,而不是在某些任务中达到 180 分,另一些却只有 60 分。当前的 LLM 本质上是一个随机引擎。它在某些任务上可能远超人类,比如解决数学奥赛题目;但在另一些简单的逻辑推理上却会犯一些人类不会犯的错误。这种表现差异说明 LLM 的智能本质与人类智能有着根本区别。这种随机性使得它难以适应企业环境,因为企业运营最需要的就是可靠性。有观点认为投入 9 万亿美元的基础设施建设,就能带来每年 9 万亿美元的 GDP 增长。但这种简单的投入产出对应关系值得商榷。仅仅通过增加算力和使用现有算法,就能让 AI 达到超凡智能的水平吗?事实上,已经有迹象表明单纯依靠训练带来的收益正在减少。要实现真正的突破,可能需要全新的技术路径,而不是简单的规模扩张。「创始人模式」(Founder Mode)在变革期间很重要
在技术快速迭代的关键时期,创始人的领导力对团队很重要,我们看到,谷歌的拉里和谢尔盖重返公司一线,亚马逊的贝索斯也开始每天到公司工作。UiPath 的经历印证了这一点,公司在上市后经历了一段增长放缓期。虽然聘请了经验丰富的职业经理人担任 CEO,但在当前技术变革的关键时期,创始人的角色依然不可或缺。创始人能够将产品、市场和技术紧密结合,形成强大的飞轮效应。这种整合能力,是推动公司在技术变革期突破创新的关键。从增长模式来看,UiPath 的经验值得借鉴。过度激进的增长策略可能会透支未来。在公开市场中,稳定的有机增长往往更受青睐。与其追求 80%、60% 到 30%、20% 的剧烈波动,不如规划稳定的 30% 年增长率。这样的增长节奏更有利于公司的长期发展。对于处在十亿美元营收规模的科技公司来说,技术周期比收入规模更为关键。在 AI 时代,公司需要重新定位自己,从传统的 SaaS 公司向 AI 驱动的企业转型。这不仅需要技术升级,更需要重新激发团队的活力。如何在规模化的同时保持组织的活力?
当公司规模不断扩大,员工往往会感到自己越来越渺小,组织的活力也会随之下降。传统的管理方法在这个阶段往往会暴露出局限性。过度强调纪律性和规范化,比如要求定期进行一对一会议,这些形式主义的管理方式并不能真正解决问题。同时,在人才选择上过分看重经验而忽视团队化学反应,也容易带来负面影响。要保持组织的活力,需要在几个关键方面做出改变。首先是建立高度透明的沟通机制。管理者要敢于直面问题,向团队坦诚地分享当前的困难和挑战,以及需要共同努力的方向。这种坦诚的沟通比空洞的鼓励更有价值。其次是要大幅减少官僚主义。要让一线团队获得更多的自主权,能够根据客户需求快速做出决策和调整。真正的授权不是表面的工作对齐,而是让员工有能力和信心去推动重大变革。在日常管理中,要建立起更加灵活的沟通机制。与其固守常规的一对一会议,不如建立起随时可以坦诚对话的渠道。当团队成员需要支持时,能够立即得到回应和帮助。人才选择上,团队的化学反应比单纯的经验更重要。即使是经验丰富的人才,如果无法融入团队文化,也难以发挥真正的价值。要把工作氛围和团队协作放在重要位置。最终的目标是打造一个充满活力的组织。在这样的组织里,员工能够获得工作的乐趣和成就感,有勇气推动重大变革,也有能力把变革落到实处。这种组织活力才是企业持续发展的核心动力。要衡量这些举措是否有效,可以观察几个关键指标:员工是否有动力去推动重大变革,是否建立起了顺畅的对话机制,区域团队是否真正获得了自主权。只有这些方面都得到了改善,才能说明组织活力得到了真正的提升。如何克服创业中的孤独感?
创业是一条充满孤独与牺牲的道路。这种孤独并非源于外界的隔绝,而是来自内心深处的思考与挣扎。对于那些深度思考者来说,创业过程中的孤独感尤为明显。他们往往生活在自己的思维世界里,不断思考、分析和反思。这种特质让他们在创业道路上更容易取得成功,但也让他们与外界的联系变得愈发稀薄。与普通人的日常交谈变得越来越困难。当别人问"今天做了什么"这样简单的问题时,创业者需要花费大量时间来解释背景和上下文。这种沟通鸿沟让他们在社交场合更倾向于谈论天气、电视剧这样的轻松话题。创业过程中的决策压力也是一个沉重的负担。每一个重大决定都像是悬在头顶的达摩克利斯之剑。为了追求事业目标,创业者往往需要牺牲个人生活的享受。在事业上升期,他们可能会经历焦虑、抑郁,甚至质疑自己的选择。即便取得了巨大成功,内心依然会思考:"如果年轻时多享受生活会怎样?"但这种孤独与压力并非无法克服。一些创业者选择接纳并拥抱这种状态,将其转化为创造力的源泉。比如通过写诗来抒发内心的痛苦,用文字的力量来缓解压力。外部的认可往往是一个重要的转折点。当获得投资人的信任和资金支持时,许多创业者的心态会发生根本性的改变。就像经历了十年艰苦创业的 UiPath,在获得融资后,创始人的恐惧感消散了,取而代之的是强大的信心和执行力。即便是在重大危机面前,比如 2020 年新冠疫情爆发时,许多公司面临生死存亡的考验。创业者需要权衡是否要裁员保命,这种压力是巨大的。但正是这些考验,让真正优秀的创业者得以脱颖而出。对于成功的公司来说,找到第二增长曲线是一个巨大的挑战。仅仅拥有资金和优秀的开发团队是不够的,还需要对新领域有深刻的理解,以及一定程度的运气,就像 UiPath 正在探索 AI 代理这个新方向,这可能成为改变公司未来的重要机遇。
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业