微信扫码
添加专属顾问
我要投稿
AI智能体引领企业自动化新纪元,重塑未来工作模式。 核心内容: 1. AI智能体定义及对企业AI转型的推动作用 2. AI智能体的四大关键构建要素:推理、外部记忆、执行和规划 3. 企业AI架构的演进路径:从RAG到自主智能体
1、AI智能体:企业自动化的新范式
AI智能体是一种能够感知环境、进行推理、制定计划并采取行动以达成特定目标的智能系统。与以往主要执行预设指令的软件或仅能进行简单交互的聊天机器人不同,AI智能体具备一定的自主性和决策能力。它们位于应用程序控制流的核心,能够动态决定采取哪些行动、使用哪些工具,以及如何解释和响应输入。
Menlo Ventures的报告指出,与主要关注内容生成和知识检索的现有系统相比,智能体自动化将驱动下一波AI转型,能够处理超出当前系统能力的复杂、多步骤任务。这标志着企业自动化从增强人类工作流程向更自主的解决方案的重大转变。
一个完全自主的AI智能体通常由以下四个关键要素构成:
1)推理(Reasoning):智能体需要能够对非结构化数据进行推理。像OpenAI和Anthropic等的相关模型已经在这方面表现出色,它们预训练的语言模型中编码了部分世界模型,可以用于一般知识和基本逻辑。大型语言模型(LLMs)拥有先进的推理和问题解决能力,使企业能够利用它们处理复杂的业务问题。
2)外部记忆(External Memory):除了通用知识外,智能体还需要外部记忆来存储和回忆特定领域的知识以及当前问题的有限上下文,这通常通过向量数据库(如Pinecone)来实现。
3)执行(Execution):智能体需要使用各种工具来执行任务,从而增强其解决问题的能力。早期的智能体平台通常提供预定义的自定义操作工具箱供智能体选择。现在也涌现出更通用的智能体工具,包括网页浏览、代码解释、身份验证和授权,以及与企业系统(如CRM和ERP)的连接器,以执行这些系统中的用户界面操作。
4)规划(Planning):与一次性完成复杂任务不同,智能体采用更类似人类的思考过程,将工作分解为更小的子任务和计划,反思进展并根据需要进行调整。
现代AI技术栈的架构经历了从少样本提示(few-shot prompting)检索增强生成(Retrieval-Augmented Generation,RAG),再到完全成熟的智能体系统的演变。其中完全自主智能体可能拥有所有四个构建块。
1)检索增强生成(RAG):RAG是当前大多数现代AI应用的标准架构。它利用推理和外部记忆作为基础。以Sana公司的企业搜索用例为例,RAG首先加载和转换企业数据孤岛(如Google Drive和Notion)中的非结构化文件(如PDF、PPT、文本文件)为LLM可查询的格式,通常通过Unstructured平台等数据预处理引擎实现。这些文件被“分块”成更小的文本块,以便更精确地检索,然后嵌入为向量并存储在Pinecone等数据库中。用户查询首先在向量数据库中进行语义搜索,检索出相关文档片段,然后LLM利用这些检索到的信息生成答案。虽然RAG可以利用工具,但其逻辑流程仍然是预先通过代码确定的,LLM主要作为语义搜索、合成或生成内容的“工具”。
Unstructured平台
Pinecone向量数据库
在实际情况中,AI 应用程序具有更复杂的应用程序流程,具有数十甚至数百个检索步骤。这些应用程序通常具有 “提示链”,其中一个检索步骤的输入输入到下一个检索步骤,并且多个 “提示链” 针对不同类型的任务并行执行。然后将结果综合在一起以生成最终输出。
例如,法律研究副驾驶 Eve 可能会将关于第七章的研究查询分解为单独的提示链,重点关注预先确定的子主题,如雇主背景、工作经历、第七章、相关判例法和原告案件的支持证据。LLMs 然后运行每个 Prompt Chain,为每个 Feedback 生成一个中间 output,并在 Outputs 之间进行 synthesize 以编写最终的 memo。
3)工具使用(Tool Use):这被认为是从RAG到Agent的第一步。通过使用预先编写的代码工具(比如Browserbase、Tiny Fish、E2B、Anon),LLM可以执行特定的操作,例如浏览网页、执行代码、连接外部系统(例如与CRM、ERP交互并运行自定义代码)。Omni的Calculations AI功能就是一个例子,它可以让LLM直接在电子表格中生成Excel函数。但需要注意的是,工具使用的逻辑流程仍然是预先设定的。
Browserbase
Tiny Fish
E2B
Anon集成平台
Omni
3)决策智能体(Decisioning Agent):这类智能体使用智能决策来导航复杂的多步骤推理流程并做出业务决策。与RAG或工具使用方法不同,这种架构首次将部分控制逻辑交给LLM,而不是预先硬编码所有步骤。Anterior(前身为Co:Helm)临床决策引擎可以自动化理赔提交审核。它们的智能体遍历由支付方规则转换成的有向无环图(DAG),利用LLM评估相关临床文档是否符合特定规则。Norm AI正在为监管合规构建AI智能体,Parcha则专注于KYC(了解你的客户)领域的智能体。
3)结构化”轨道“的智能体(Agent on Rails):这类智能体被赋予更高的目标(例如,“协调此发票与总账”、“帮助客户解决登录问题”、“重构此代码”),并拥有更大的自由度来选择实现这些目标的方法和工具。Sema4在金融后台,以及Sierra、Decagon、Maven AGI、DevRev和Gradient Labs在客户服务与支持,Factory AI和All Hands AI在软件开发等领域都涌现了这类AI智能体的案例。这种架构可能需要额外的数据基础设施支持,例如持久执行、状态和内存管理、多智能体编排和护栏。
4)通用AI智能体(General AI Agent):这是智能体设计的最终目标——能够独立思考、制定计划并自主执行复杂的、动态变化的任务,无需用户进行每一步的指导。这种“从概念到执行”的自主能力,使其与传统的聊天机器人和工作流工具有了本质的区别。通用AI智能体不仅具备知识和推理能力,还应拥有如下能力以取代了先前设计的结构化“轨道”,使其能够执行外部系统中的任何操作,而不仅仅是预定义的操作:
要实现真正的通用AI智能体,需要在多个关键领域取得突破:
增强推理与问题解决能力:结合大型语言模型与符号AI,提升结构化知识表示和逻辑推理能力。
改进经验学习机制:通过隐式反馈和强化学习,使代理能够持续学习和适应。
发展记忆系统:构建高级记忆架构,支持长期学习和自我反思。
扩大训练和推理规模:增加计算资源投入,提升模型在复杂任务中的表现。
开发通用奖励模型:为代理在多样化环境中提供有效的行为评估机制。
利用世界模型:通过模拟环境,帮助代理在真实世界中更有效地学习和规划。
前期火爆的Manus是通用AI智能体探索,与此同时,OpenAI也推出了Responses API和Agents SDK,旨在为开发者构建AI代理提供更强大和灵活的基础设施。
如今,生成式AI的预算已经流向了企业的各个部门。AI智能体作为生成式AI的下一阶段发展,其应用潜力更是无处不在。
1)代码生成(Code Generation):使用AI智能体可以辅助程序员编写代码,提高开发效率。
2)聊天机器人(Chatbots)与虚拟助手(Virtual Assistants):更智能的AI智能体能够提供更个性化、更高效的客户服务和员工支持。例如,Automation Anywhere的客户支持团队通过实施AI驱动的工作流程,降低了30%的运营成本,并将客户满意度(CSAT)提高了10%。Salesforce Agentforce旨在让人与AI智能体协同工作,提升客户成功率。
3)企业搜索(Enterprise Search):通过AI智能体可以更智能地索引和检索组织范围内的知识,打破企业数据孤岛。Sana是这方面的代表。
4)数据转换(Data Transformation):利用AI智能体自动化处理和转换各种格式的数据,提高数据处理效率。Tennr利用AI从各种非结构化数据源中提取数据并输入到诊所的电子健康记录(EHR)中,从而简化转诊流程。
5)会议总结(Meeting Summarization):借助AI智能体自动记录和总结会议内容,提高团队协作效率。Dialpad等平台就利用AI进行会议纪要和洞察分析。
6)自动化代理与自主系统(Agents and Automation):AI智能体正在向更自主的解决方案转型。Forge和Sema4在金融后台工作流程,以及Clay的市场推广工具,都展示了完全自主的生成式AI系统如何改变传统上由人工主导的行业。这预示着一个“服务即软件(Services-as-Software)”的新时代,AI驱动的解决方案将提供传统服务提供商的能力,但完全通过软件运行。
7)部门级转型(Department-by-Department Transformation):IT、产品与工程、数据科学等技术部门目前占据了企业生成式AI投资的最大份额。但其他部门,如客户支持、销售、市场营销、人力资源、财务、设计和法律等,也都在积极利用AI智能体。
8)药物发现与生命科学(Drug Discovery & Life Sciences):AI使Vilya和Xaira Therapeutics的联合创始人、诺贝尔奖得主David Baker能够计算生成新的潜在药物并预测其结构和功能,加速新药研发。NVIDIA BioNeMo也提供了一个AI驱动的生命科学研究与发现平台。
9)智能制造与工业应用(Smart Manufacturing & Industrial Applications):运用AI帮助Continental、Michelin和Nestlé等制造商捕获专业知识并维护高标准的工厂作业,例如通过Squint将教学材料转化为沉浸式增强现实体验。Siemens也在生产线中集成AI以进行预测性维护和流程优化。NVIDIA Omniverse则为工业AI提供支持。
10)网络安全(Cybersecurity):Abnormal Security利用AI保护企业免受复杂的电子邮件威胁。NVIDIA Morpheus提供了AI驱动的网络安全解决方案。
11)人才招聘(Talent Acquisition):CodeSignal利用AI更快、更可靠地识别顶尖工程人才。Softbank通过AI驱动的自动化,将其招聘评估所需的时间减少了85%。
12)营销与内容创作(Marketing & Content Creation):Typeface使品牌能够大规模地制作个性化的、符合品牌形象的内容。营销团队还可以使用AI分析客户数据,创建有针对性的广告活动,并进行社交媒体情感分析。
13)财务与会计(Finance & Accounting):Sema4在金融后台的票据核对等方面应用AI智能体。Omni的Calculations AI功能利用LLM直接在电子表格中输出Excel函数,自动化复杂查询的生成。Anterior则自动化了理赔提交审核。
14)法律科技(Legal Tech):Eve作为一款法律研究助手,是早期AI在法律领域的突破性案例。Norm AI也正在构建监管合规方面的AI智能体。
15)浏览器自动化(Browser Automation):MultiOn、Induced和Twin等Web智能体利用视觉Transformer理解Web组件及其功能,以自动化网页浏览、视觉UI操作和文本输入。
AI智能体为企业带来了诸多超越传统自动化技术的优势:
1)提高生产力和效率(Increased Productivity and Efficiency):AI智能体可以自动化执行各种任务,从创建销售方案到更新CRM记录,从而提高工作效率并实现自动化。
2)增强决策能力(Enhanced Decision-Making):大型语言模型(LLM)的先进推理和问题解决能力,使企业能够利用它们处理复杂的业务问题。AI智能体作为决策引擎,位于应用程序控制流的中心,能够实现适应性、多步骤操作、复杂推理和强大的异常处理能力。
3)全天候可用性(24/7 Availability):随着AI智能体能够在呼叫中心、医疗等领域执行智能任务,全天候服务成为可能。
4)个性化客户体验(Personalized Customer Experience):借助生成式AI和大数据,企业可以利用数据在所有渠道个性化客户体验。AI驱动的智能系统(包括但不限于聊天机器人和虚拟助手)可以通过在交互和工作流程中整合客户数据和偏好,实时提供个性化体验。
5)适应新情况(Adapt to New Situations):智能体能够基于基本推理和相关业务背景,如智能地识别和适应新的数据源、发票格式、命名约定、帐号,甚至策略变更,而无需重新编程或明确的SOP。
6)实现多步骤操作(Enable Multi-Step Actions):如在发票金额不匹配的情况下,智能体可以执行多步骤调查,包括扫描供应商最近的电子邮件以查找可能的价格变更通知。
7)展现复杂推理(Demonstrate Complex Reasoning):例如,在协调国际供应商发票与公司账簿时,智能体能够考虑发票货币、账簿货币、交易日期、汇率波动、跨境费用和银行费用等多种因素,并进行综合计算。
8)考虑不确定性(Account for Uncertainty):智能体对四舍五入误差或个别项目无法读取的数字具有鲁棒性,如它们可以基于匹配的总订单价值以及历史发票的时间和频率等上下文线索进行判断。
9)创新和敏捷性(Innovation and Agility):利用AI可以帮助企业集思广益,提出产品、服务或业务改进的想法,并了解如何实施这些想法。
当前的AI智能体市场仍处于新兴阶段,可以从两个关键维度进行观察:
1)领域特异性(Domain Specificity):从高度专业化的垂直领域智能体(如医疗保健或客户支持)到具有广泛通用能力的水平智能体平台。
2)LLM自主性(LLM Autonomy):指语言模型独立规划和指导应用程序逻辑的程度。
根据这两个维度,AI智能体市场可以大致划分为以下几类:
1)企业级智能体平台(Enterprise Agents):这些可扩展的智能体平台使企业能够通过自然语言SOP或规则手册,跨多个职能和工作流程构建和管理智能体。它们特别吸引那些寻求广泛适用智能体能力(而非针对每个业务部门的独立解决方案)的集中式IT买家。例如,Sema4的发票协调智能体的核心处理能力可以应用于财务、采购和运营等多个部门的各种数据验证任务。
2)浏览器智能体(Browser Agents):MultiOn、Induced和Twin等Web智能体是另一种水平通用型智能体。大多数遵循“通用AI智能体”的设计,利用在各种软件界面及其底层代码库上训练的视觉Transformer。这使得智能体能够“理解”Web组件、其功能和交互,从而自动化网页浏览、可视化UI操作和文本输入。
3)垂直领域智能体(Vertical Agents):最有希望的垂直领域智能体机会存在于目前由人工按照SOP或规则手册处理的手动、程序驱动的流程中。许多企业已经将这些职能外包给业务流程外包(BPO)公司或承包商。这些任务通常过于复杂,无法通过基于规则的自动化实现,但又不足以复杂或具有差异化优势到需要内部知识工作者处理。热门类别包括客户支持、招聘、某些软件开发任务(如代码审查、测试和维护)、冷门销售外呼和安全运营。
4)AI助手(AI Assistants):与企业级和垂直领域智能体处理更复杂的端到端流程不同,AI助手执行更简单、更面向生产力的任务。常见的应用包括少量步骤的Web研究、知识提取、摘要和非结构化数据转换。
5)AI赋能的服务(AI-enabled Services):由于企业对智能体能力的需求超过了客户自行生产智能体的能力(尤其是在需要广泛的数据基础设施和护栏来支持“轨道上的代理”设计的情况下),因此出现了Distyl和Agnetic等公司,它们以“Palantir for AI”的模式提供前向部署的工程服务。
同时,也存在一些并非智能体本身但与智能体解决方案竞争相同预算甚至相同工作流程的生成式AI解决方案,它们主要基于RAG架构,不位于应用程序控制流中,因此无法完全复制人类的推理能力:
1)垂直领域AI(Vertical AI):语义搜索和非结构化数据转换在垂直领域工作流程中是非常强大的原语。例如,医疗保健AI自动化平台Tennr从传真、PDF、电话和其他混乱的来源中提取非结构化数据,并将其输入到诊所的EHR中,以简化转诊流程。
2)RAG即服务(RAG-as-a-Service):Danswer和Gradient等公司提供水平的语义搜索和非结构化数据转换能力,使客户能够查询非结构化数据源(如PDF)、提取数据并将其输入到更结构化的数据库或记录系统中
3)企业搜索(Enterprise Search):Glean、Perplexity和Sana提供语义查询,用于索引和检索概念上相关的文档,从而更好地管理组织范围内的知识并打破企业数据孤岛。
尽管AI智能体潜力巨大,企业在采用过程中也面临着一些挑战和需要考虑的关键因素:
1)缺乏AI专业知识(Lack of AI Expertise):实施AI智能体需要高度专业化的工程师和数据科学家。尤其需要能够桥接先进AI能力与领域特定专业知识的专家。
2)数据质量与治理(Data Quality and Governance):用好AI智能体通常需要高质量的数据进行训练和运行。企业需要确保拥有足够的、当前的和历史数据,并建立有效的数据治理机制。
3)互操作性问题(Interoperability Issues):现有的遗留系统可能阻碍AI智能体与业务智能的集成。
4)监管合规(Regulatory Compliance):根据地区的不同,AI可能引入额外的法规要求或复杂性。
5)透明度与可解释性(Transparency and Explainability):许多机器学习算法都是“黑箱”,这使得理解AI决策的原理变得困难。企业需要能够检查AI决策过程的工具。
6)伦理考量与责任(Ethical Considerations and Responsibility):确保AI的道德使用,包括数据隐私、透明度和公平性至关重要。
7)安全风险(Security Risks):AI系统通常存储敏感数据,企业必须确保强大的数据安全措施,包括隐私政策和加密协议。
8)AI人才短缺(AI Talent Drought):技术行业将面临严重的AI人才短缺,尤其是在能够将先进AI能力与领域特定专业知识相结合的专家方面。这可能导致激烈的竞争和更高的薪资溢价。
9)基础设施需求(Infrastructure Requirements):AI智能体的部署可能需要新的基础设施,例如智能体身份验证、工具集成平台、AI浏览器框架和AI生成代码的专用运行时。
10)持续的监控、更新与优化(Continuous Monitoring, Updates, and Optimization):AI是一个不断发展的系统,需要持续更新和优化模型,集成反馈,并适应不断变化的业务环境和需求。
11)建立清晰的目标和衡量指标(Defining Clear Objectives and Metrics):企业需要为每个AI部署定义清晰的目标,并识别和跟踪相关的KPI来衡量绩效。
生成式AI的第二波浪潮将由能够思考并代表我们采取行动的AI智能体定义,而不仅仅是阅读和写作。随着这些架构的成熟,它们将成为AI接管服务经济的强大催化剂。
1)智能体驱动下一波转型(Agents will drive the next wave of transformation):智能体自动化将驱动下一波AI转型,解决超出当前系统能力的复杂、多步骤任务。Clay和Forge等平台预示了先进智能体如何颠覆价值4000亿美元的软件市场,并蚕食价值10万亿美元的美国服务业。
2)更多颠覆性创新(More incumbents to fall):ChatGPT今年对Chegg和Stack Overflow的颠覆是一个警钟。其他领域也面临被颠覆的风险,例如IT外包公司(如Cognizant)和传统自动化厂商(如UiPath)Salesforce和Autodesk等软件巨头也将面临AI原生挑战。
3)“服务即软件”时代的加速到来(Acceleration of "Services-as-Software" Era):AI智能体的发展将推动“服务即软件”时代的加速到来,AI驱动的解决方案将提供传统服务提供商的能力,但完全通过软件运行。
4)物理AI的兴起(Rise of Physical AI):将AI集成到物理系统中,使其能够感知和响应现实世界,这可能成为AI市场中最大的领域。Nvidia的Isaac GROOT N1是一个为人形机器人训练的开放基础模型。
5)AI与机器人的融合(Convergence of AI and Robotics):智能体的发展将推动第四波机器人浪潮,最终可能实现具有人类般学习、推理和适应能力的通用人工智能(AGI)。
6)多模态AI的普及(Prevalence of Multimodal AI):多模态AI将整合视觉、触觉和语音等感官体验,帮助自主智能体与人类进行更自然的交互。
结语:拥抱AI智能体,共筑企业智能新未来
AI智能体作为下一波企业AI转型的核心驱动力,正以其强大的自主性、推理能力和执行能力,颠覆着传统的企业运营模式。从自动化重复性任务到解决复杂的决策问题,AI智能体正在各行各业展现出巨大的潜力。然而,成功部署和利用AI智能体需要企业制定清晰的战略,克服数据、技术和人才等方面的挑战,并始终关注伦理和安全问题。只有这样,企业才能真正抓住AI智能体带来的机遇,实现业务的飞跃式发展,在未来的竞争中占据领先地位。现在,正是企业拥抱AI智能体,开启智能未来的最佳时机。
AI智能体代表着企业智能化发展的新阶段,它超越了以往AI应用的局限,展现出强大的自主性和解决复杂问题的能力。面对这场由智能驱动的商业变革,企业需要积极拥抱AI智能体,深入理解其原理和应用场景,并着力解决随之而来的挑战。通过构建坚实的数据基础,培养专业的AI人才,并建立完善的伦理和安全保障机制,企业将能够充分释放AI智能体的潜力,实现更高效、更智能、更具竞争力的未来。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
实测:如何用 “Manus+DeepSeek” 赋能企业AI落地,智能托育方案到网站自动上线
2025-03-25
学习笔记:AI Agent 赋能项目管理的探索
2025-03-25
某市公安局警务 AI 大模型应用服务项目
2025-03-24
未来80%的程序员会被AI干掉?
2025-03-22
小公司AI Agent的三个基本原则:聚焦、差异与增效
2025-03-22
AI 在企业应用的三大段位:从「流水线工人」到「决策指挥官」
2025-03-21
AI 智能体应用,是企业专属的“私房菜”,而非千篇一律的“预制菜”
2025-03-18
拆解企业AI落地密码!三步走方法论与实践案例
2024-10-24
2024-04-24
2024-09-27
2024-07-11
2024-04-19
2024-06-22
2024-06-26
2024-12-21
2024-04-18
2024-09-06
2025-03-24
2025-03-10
2025-03-01
2025-02-21
2025-02-13
2025-01-21
2025-01-08
2024-12-27