我要投稿

（一）初识AI Agent—以大模型为核心的智能体

发布日期：2024-03-13 11:39:30 浏览次数： 2961 作者： AI产品经理研习与实践

引言

在2018年的开发者大会上，谷歌宣布的一款 AI 助手——Google Duplex，一个通过电话完成实际任务的人工智能系统。它能够进行复杂的对话，并且完全自主地完成大部分任务，无需人工参与。当然它也具备自我监控功能，当识别到无法自主完成任务时（例如，安排异常复杂的约会），它会向可以完成任务的人类操作员发出信号。

例如用户让它预约一个商家，Google Assistant就会通过Duplex致电商家来安排预约，在过程中是助手自行与商家的接线员对话，预约成功后再反馈用户已经完成。在预约餐馆的例子中，商家的人类接线员（因英文不好给沟通带来了困难）出了不少错，但是Duplex依然能够应付。

当时这个信息还是挺火的，而负责美业连锁门店业务系统需求的我，收到了老板的提问：“你们不是在做顾客自助预约的功能么，能不能像谷歌这样做到顾客说一句话，就自动执行预约呢？”这样的功能肯定用户体验很好！

那时我只笑笑不说话——这种AI技术，我们自研的可能性可以说为0；而那时候也还没有现在这些大模型和智能体框架。不是我不想，而是不能。

而随着以GPT大模型为代表的人工智能（AI）2.0时代的技术发展，从深度学习、机器学习、自然语言处理到计算机视觉，AI技术不断突破限制，为众多行业带来了革命性的变革，从提供客户服务的聊天机器人到为医疗保健和制造业创建的复杂机器人。特别是以GPT、Claude、Gemini等大模型的发布，使得这样的智能助手对于小企业、普通人而言也有了触手可及的可能性。

这，就是本文所要探讨的AI Agent（人工智能代理，也称为AI智能体）。

—

AI智能体概述

尽管ChatGPT、Midjourney、Runway、Pika等原生AI应用非常火爆，微软、谷歌、百度、淘宝等大厂在结合LLM的能力更新迭代自己的产品，很多套壳应用也层出不穷，但LLM的潜力可远远不止于用来生成好的文案、图片和视频，或者用来优化学习、体验、搜索等，它可以被定义为一个强大的通用问题求解器——也就是本文所要探讨的AI智能体。

什么是AI Agent

AI Agent 并不是一个新兴的概念，早在多年前就已在人工智能领域有了研究。在《人工智能：现代方法（第4版）》一书中，作者表示：

任何通过传感器（sensor）感知环境（environment）并通过执行器（actuator）作用于该环境的事物都可以被视为智能体（agent）。

从这个概念上而言，围棋机器人AlphaGo、苹果手机助手Siri、天猫精灵智能音箱等，都可以理解是AI Agent。

不过，我想要探讨的是一种更先进的、面向未来的人工智能代理——AI Agent旨在理解、分析和响应人类输入，像人类一样执行任务、做出决策并与环境互动。它们可以是遵循预定义规则的简单系统，也可以是根据经验学习和适应的复杂、自主的实体；可以是基于软件的实体，也可以是物理实体。它们被用于各种领域，包括机器人、游戏、虚拟助理、自动驾驶汽车等。这些智能体可以是反应性的（直接对刺激做出反应）、深思熟虑的（计划和决策），甚至具有学习能力（根据数据和经验调整它们的行为）。

AI Agent和LLM、RPA的区别

大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动，和 RPA 的区别在于它能够处理未知环境信息：