我要投稿

LLM AI Agent：思想脉络、产业化技术与展望

发布日期：2024-04-30 08:02:31 浏览次数： 2416 来源：氢AI

尽管缺乏明确的定义，但人工智能体（AI Agent，或称Autonomous AI Agent）被普遍认为是可以独力感知环境、做出决策并采取行动的人工智能软硬件系统。可以说，几乎每一代人工智能技术的出现都会引发智能体研究的热潮。在大语言模型出现之前，由人工智能先驱纽厄尔参与研发的SORA认知架构在专家系统、电子游戏AI、机器人等领域广泛应用。在大语言模型出现后，其在理解、逻辑、记忆、生成等方面的涌现能力再次引发了人工智能界基于起构建新一代人工智能体的兴趣。
目前，世界主要人工智能企业都在探索培育基于智能体的AI原生应用生态。百度千帆AppBuilder外、OpenAI（GPTsBuilder）、微软（AI Studio）、Google（VertexAI）、阿里（百炼）、字节（Coze）等开发平台都在快速迭代发展。
本文将梳理人工智能体的思想脉络，结合LongChain详细目前讲解基于大语言模型的人工智能体主要的落地技术方案，最后结合两篇综述介绍学术界关注的前沿话题。希望能对理解技术和产业发展的情况有所帮助。

1. 思想脉络

Agent哲学概念溯源

“Agent”的概念起源于哲学。亚里士多德（前384-前322）在《灵魂论（De Anima）》第三卷中将人类的智能划分为“被动智能”和“主动智能（拉丁文Intellectus Agens）”两个层次。其中被动智能指认识客观世界的能力，而“主动智能”则指提炼知识的能力（形而上）。其中Intellectus Agens可以翻译为英文的Active Intellect或Agent Intellect。休谟（David Hume，1711-1776）在《道德哲学（Moral Philosophy）》中，将行为的施动者称为Agent。

Agent进入人工智能领域

18世纪，法国哲学家狄德罗（Denis Diderot，1713-1784）提出了一个说法：“如果能找到这样一只鹦鹉，它可以回答任何问题，那么我会毫不犹豫地宣布它是智能的”。这一说法暗含了一个深刻的观点，即在哲学而言，智能不是人类所独有，除人类外的实体如果能展现出智能的能力，人类也会承认它有智能。20世纪50年代，图灵（Alan Turing）将这一概念扩展到人工实体，并提出了著名的图灵测试，旨在探索机器是否能表现出与人类相当的智能行为。这些人工智能实体通常被称为“智能体”，指能够使用传感器感知周围环境、做出决策，然后使用致动器采取行动的人工实体。1977年，并发计算领域“演员模型（Actor Model）”概念提出者，美国计算机科学家休伊特（Carl Hewitt，1944-2022）在论文《Viewing Control Structures as Patterns of Passing Messages》中首次提出了Software Agent的概念，指模仿人类能力的人工智能实体。随计算机科学技术和人工智能技术的发展，在20世纪90年代中后期，AI Agent的研究迎来了一次热潮。博通爱尔兰公司（Broadcom Éireann Research）在论文《Software Agents: A review》中将其定义总结为“以自主的形式代表其他实体，实施某种程度的主动性或反应性行动，并展现出学习、协作和机动性等特性的计算实体”。从那时起，对智能体的探索成为了人工智能界的热点方向之一。英国著名AI科学家、牛津大学教授伍尔德里奇（Micheal Wooldridge，1966-）在《Intelligent agents: theory and practice》中指出人工智能代理是实现通用人工智能（AGI）的关键步骤。

AI Agent既往发展情况

从概念提出至今，人工智能体的技术研究取得了巨大进展，但其总体技术水平远未达到人们的期待。虽然在符号推理、棋牌游戏等方面不断超越人类水平，但尚未实现广泛的适用性。此外，以前的研究更多地强调算法和训练策略的设计，而未能实现人工智能系统知识记忆、长期规划、有效概括和高效交互等通用能力的发展。这种情况随着大语言模型的出现有望得到改善。目前，基于大语言模型的AI Agent研究已经走到了台前。

2. 技术落地现状

仰望星空，脚踏实地。构建AGI水平的智能体还需要解决很多复杂的深层次问题，涉及哲学、脑科学、计算机科学与技术等多个方面。但研究基于大语言模型的智能体当前落地的情况，有助于更好地了解目前人工智能产业的发展情况。本文将结合LongChain中流行的项目介绍两类智能体。第一类侧重于规划并调用外部工具解决问题。百度千帆AppBuilder等各类AI原生应用开发平台上的智能体更加接近于这种形态。第二类侧重于通过“反思”来提升大语言模型生成内容的质量。

规划类Agent

规划类Agent以思维链（CoT）为启发，通过大语言模型生成解决问题的方案规划，然后按照规划通过调用工具等方式完成任务。第一个此类项目是ReAct。

ReAct

2022年10月（ChatGPT尚未发布），GoogleMind和普林斯顿联合发表了一篇论文《ReAct: Synergizing Reasoning and Acting in Language Models》，被公认为基于LLM的智能体的开山之作。

在ReAct出现以前，围绕大语言模型的研究已经如火如荼。思维链（CoT）提示词技术提升了大语言模型的逻辑推理能力，而SayCan、WebGPT等项目训练大语言模型使用（搜索引擎等）外部工具，并根据结果迭代从而额完成高级任务的能力。ReAct将这两种能力结合在一起，从而使大语言模型可以自主规划并调用外部工具完成任务。

上图右侧的模版示例了ReAct的具体做法。该模版模拟了人类解决这一类问题（还有什么设备可以控制苹果遥控器原本被设计用于交互的软件？）的方法：
1.搜一下苹果遥控器原本被设计控制什么软件
2.搜一下这个软件都能被什么设备控制
3.总结答案

项目组搜集了很多此类模板，用于精调大语言模型（原文验证阶段用的是情境学习提示工程，发现有效但效果不拔群），发现精调后8B大小的模型可以超过60B同类模型的其他方案（标准模型、CoT或ACT等），如下图所示。

ReAct一经问世便成为了基于大语言模型的规划类AI Agent研究热点，并衍生出很多种类似项目方案。这些方案主要向以下三个方向进化：
1.更快速、更便宜：ReAct在每一轮都需要调用同一个大语言模型。后续的项目希望能在大语言模型做出规划后，尽量少调用它，以实现更快的响应，为此尽量将子任务交给外部工具或更小的专业模型。
2.更精细的规划：后续的项目希望智能体能生成细致的规划，这样能提高完成质量，并有利于实现上一条中的目标，而ReAct的规划模板显得过于粗糙。

下面，本文将介绍几个代表性的ReAct衍生项目。

Plan-And-Execute

该项目收到新加坡管理大学2023年5月提出的Plan-and-Solve Prompting项目以及BabyAGI项目启发。它的基本工作流程是：
1.调用大语言模型生成一份详细的规划
2.调用小一点的模型根据用户查询并按照上述规划调用外部工具一步一步落实，并最终生成一个答案
3.调用大语言模型审视上述答案，如不满意则重新生成规划并重复2和3。

相比ReAct，该方案生成的答案质量可能更高，同时调用大模型的次数可能更少。

Reasoning WithOut Observation（ReWOO）

ReWOO是2023年5月由三星美国研究院（Sumsang Research America，SRA）提出的项目。这个项目的最大特色是在规划中明确了每一步任务的关键变量，如下图的“E1”“E2”等。项目提出者希望这样的设定能避免整个系统无休无止地重复规划、重复生成。有助于明确执行侧（Worker）每一步的上下文和任务目标，从而能一次性完成任务。

LLM Compiler

LLM Compiler是伯克利大学的SqueezeAILab于2023年12月提出的新项目。这个项目在ReWOO引入的变量分配的基础上，进一步训练大语言模型生成一个有向无环图（Directed Acyclic Graph，DAG）类的规划。DAG可以明确各步骤任务之间的依赖关系，从而发掘并行性，实现类似处理器“乱序执行”的效果。从而可以大幅加速智能体完成任务的速度，如下图所示。

反思类Agent

Basic Reflection

LongChain上最近本的“反思”系统是使两个大语言模型相互“对抗”。其中一个负责生成答案，另一个负责给它“挑毛病”。经过多轮提炼，系统的答案质量得到增强。

Reflexion

Reflexion是2023年3月由美国东北大学提出来的系统。如上图所示，这个系统的特点是，第一个“响应”模型生成初始内容后，再由第二个“修订”模型结合通过外部工具获得的信息多轮迭代，最后将答案反馈给用户。其中“修订”模型在每一轮必须明确列出外部工具的引文，并陈述上一轮答案的问题之处，如下图所示。

Language Agent Tree Search（LATS）

LATS是伊利诺伊大学香槟分校于2023年10月提出的一种通用的LLM代理搜索算法，它结合了反射/评估和搜索（特别是蒙特卡洛树搜索），与ReACT、Reflexion甚至思想树等类似技术相比，可以获得更好的整体任务性能。它采用了标准的强化学习任务框架，但是用对“反思”LLM的调用取代了强化学习中的代理、值函数和优化器。从上图可以看到，LATS的工作流程思想是：
1.用“生成”模型成成一个答案。
2.用“反思”模型给这个答案“评分”。
3.“生成”模型根据反馈再生成两个答案。
4.“反思”模型分别给两个答案评分。
5.“生成”模型在4中高分答案的基础上继续改进，并生成两个答案。
6.重复4和5直到满意为止。

3. LLM Agent 综述

上一部分从产业的角度介绍了一些代表性的LLM Based AI Agent项目。由于是从应用出发，关注的是项目和项目之间整体方案的区别。目前，学术界也有一些关于LLM Based AI Agent的综述（预印本）。也许是因为智能体是比较综合的系统的缘故，这些综述往往倾向于按技术点维度归纳、总结研究的发展情况，虽然大而全，但难以给产业界的读者有效的帮助。这一部分将简介两篇代表性的综述。

A Survey on LLM-based Autonomous Agents

这篇文章是人民大学高瓴人工智能学院院长文继荣教授团队编写的。文章的亮点之处在于将“Profile”列为基于大语言模型的人工智能体的主要组成部分。在文中列出的四大关键组成部分中，“Profile”相比于其他三个属于很软性的成分，但在上面提到的各种AI原生应用开发平台上，很多都要求或允许开发者编写智能体的Profile。开发者可以用上千字描述智能体的功能、要完成的任务、风格等，甚至还可以放入对话样例。

The Rise and Potential of Large Language Model Based Agents: A Survey

这篇文章是复旦NLP团队编写的，亮点之处在于更加关注多智能体、智能体与人之间的互动，并展望了未来智能体融入社会的路径和景象。文章提到，智能体与智能体之间可能是分工协作的，也可能是对抗性的。实际上，第二部分介绍的规划类智能体中，大语言模型和大语言模型之间就是协作性的；而在反思式智能体中，大语言模型就是对抗性的。文章还提到智能体与人之间的关系，有些是指挥和服从式的，有些是平等的。如下面图中所示。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业