我要投稿

Agent如何放大单体大模型能力？

发布日期：2024-06-24 04:43:26 浏览次数： 2182

作者：北冥星眸

微信搜一搜，关注“北冥星眸”

深度agent解析

< 第六篇 >

Creating a new species of intelligence is the greatest mission of our generation

（引言）

这篇文章是“深度agent解析”系列的第六篇。这篇文章，我们来讨论agent和单体大模型之间的关系。

人类花了完整的2023年，认识到单体大模型作用的有限。整个2023年大模的绝大部分的应用都是在工具层。理解工作本质的仍然是人，人在特定的任务上使用大模型为工具，然后根据其返回，决定下一步给大模型什么任务。那么agent如何让情形变得不同呢？我们先来引用一些其他人的观点。

比尔盖茨说：“agent是新人工智能时代的正曲，真正的应用层兴盛以agent兴起为标志”。

吴恩达说：“GPT4+agent大于GPT5”。也就是把agent视为GPT能量的放大器。

还有一种说法把单体大模型比喻为飞机的引擎，有很大能量；而agent则是飞机外壳和控制系统，它组织、控制了大模型的能力让它能飞起来。

接下来我们就来具体考察agent是如何增加大模型的能力。

#01

··大模型的缺陷&Agent的出现··

大模型为了完美拟合海量的表象数据，竟然以人类的方式在底层形成了对自然语言、逻辑运算的真实理解，拟合出了类人的思维和心智的底层机制。因为这些底层智力的形成，让大模型涌现出了各类能力。这是一个“从表层到底层，再泛化到表层”的过程。大模型为了拟合海量表层信息生成了类人的底层能力，这让大模型能泛化更多上层的功能。大模型体现出了跨任务的能力——很多任务能力在样本中并没有直接体现，但大模型却具备这些能力。

GPT是历史上第一个承载人类文明几乎所有信息的个体，而且具备人类底层的逻辑智能和语言智能，它是智力领域的核聚变。但是距离chatgpt出现已经有一年多了，我们并没有看到这个核聚变式的能量，这是为何？因为尽管GPT内部已经蕴含了巨大的智力能量，它不知道如何组织使用，我们需要教会AI如何组织和使用GPT的能力完成复杂的任务，而不是让人类去使用它。

大模型的缺陷本质是来自于其“刺激-反应”型的输出模式，需要人给其出题，给其任务。而人类大部分综合的脑力劳动是过程属性的，是反应链。

所以天然的思路就是在模型外把这个智能活动的过程复现出来。在关键的执行环节给大模型“出题”，调用大模型能力。如果目标是复现人类某一类的智能活动，这就是任务导向的agent，这也是目前大部分workflow式的agent所做的。还有一个思路就是反思和复现人类智能活动的一般过程，这就是通用agent。通用agent是以钱学森为代表的东方道法自然的解构主义人工智能和西方GPT的伟大结合。

#02

··突破单体大模型限制——互动类目标··

以互动类目标中的对话为例子。传统用单纯GPT创造对话，都是在对话者表达后把上下若干轮对话写入提示，让大模型生成下一句表达。为了创造多样的对话风格会使用角色扮演的永久提示，有时会用微调的方式把风格直接训练进去。比较好的中间层会创造一系列提示变量，包括了AI的心情、对对话者的态度、要表达的立场，然后通过一个系统监听自身的对话，维护这些变量，在每次表达生成时把变量嵌入提示模板，生成表达。这种方式相比于角色扮演的永久提示，会体现出AI作为一个个体在其存续时间状态的变化。

MTSagent为对话能力带来的一个改变是对话过程的自由思绪。打破一问一答的对话模式，AI即使不说话也有思绪。用户的表达写入感知流引发自由思绪，高关注信息形成短期记忆（对话工作记忆的一部分），这些对话者陈述的信息、引发的AI认知信息、联想到的AI自身立场等等，作为工作记忆影响了表达的生成。实验中我们可以控制AI只做倾听而不表达，然后在长时间倾听后进行对话。

第二个改变是为对话带来长期记忆能力。不仅仅对话者表达的高关注信息，推知、问题求解获得的高关注结论，都可能从感知流沉淀到长期记忆，在对话中被联想形成工作记忆。体现出长期记忆对对话的影响。长期记忆的存在能够在陪伴目的对话中让agent慢慢熟悉用户，利用对用户了解创造日常互动，长期记忆的缺失是基于单纯GPT的陪伴AI在产品化上达不到及格线的最重要原因之一。其次在AI替代专家进行“深度进入用户情境的咨询”中，心理咨询、司法咨询、企业咨询、健康咨询等都需要持续跟进，需要agent记忆之前咨询对话的重要信息和关键结论。

#03

··突破单体单模型限制——搭建类目标··

我们以写书为例，考察GPT在大型搭建类任务中的限制，以及MTSagent如何突破这种限制。

GPT可以写文章。因为我们可以一次性把文章的要求和素材装入通用大模型提示，这就好比一次性把所有搭建用的材料给到GPT，让它按照需求搭建一个屋子。但如果是一本书，其素材的规模远远超过了提示的容量。不仅仅如此，即使是GPT4，70k的提示容量也是个理论值，因为真正把这么大规模的素材写入提示，任务内的注意力会出现问题——信息没有办法被使用到合适的地方。

在MTSagent中，面对大型搭建类目标，我们让大模型在脑海中扮演不同角色的工人：比如在大型写作任务，比如写书中我们有“规划者”负责输出修改目录，有“工人”负责根据标题搜集长期记忆中的素材生成标题下内容，也有“工人”根据话题搜索闪光思想，生成内容，然后根据内容生成标题；于是也有“工人”根据新增的标题修改已有的目录。通过这种方式，每个工人只需要在长期记忆的“任务画布”中每次完成一个单元任务，就能慢慢地把要搭建的大厦搭建修缮出来。

这边的关键是如何定义单元任务，如何定义单元任务的工作记忆搜集，如何决定单元任务的触发，也就是单元任务间相互配合的逻辑。换种方式说就是在搭建类任务中，我们如何定义每类“工人”的工作，以及如何定义他们相互配合的逻辑；更进一步agent如何自己为一种新任务定义思维中的“工人”，并组织他们的工作。

#04

··智能物种&通用agent··

人工智能是一个宽泛的概念。智能物种不同于现有的人工智能不是一个单纯工具。一个智能物种需要和人类一样具备独立的让文明演进的能力。

人类文明有3个维度的度量。其一是知识，也就是对客观世界的认知，包括了表层的规律，以及事物演化背后的机理；其二，基于这些知识，我们就形成了干预因果链条实现事件目标的方法；其三是工具，工具是为了在特定环境下稳定而高效地控制因果链条的实现而被创造出来的，已有的工具为新的工具的创造提供基础。就好比冲压机床为各种机器的搭建提供了基础；电脑为其他工具的设计提供了基础。所以总结而言，我们看到文明的活动有三个过程组成，认知过程，解决问题实现目标的过程，创造工具的过程。

通用agent反思了人类情绪决策、认知、记忆、执行相互配合的逻辑，让agent变为一个连续存在的个体——类似人的个体。我们看下通用agent构建了什么：

情绪决策系统动机形成的过程、目标分解的过程形成了人类目标和动机的脉络；为了实现目标，生成了“目标求解”，给到认知系统。认知目标能在认知系统中不断分解，从“目标求解”的认知目标走向客观世界规律的认知目标。这些认知目标“不严格认知过程”不断被腐蚀，被求解。为了能在特定环境条件下实现高效的因果链条干预，实现目标，人类形成了“工具创造求解”，用来形成创造工具的认知。新的工具建立在已有的工具上，或是利用了已有的工具，所以随着时间工具不断演化进展。对客观世界的认知、控制因果链条实现目标的方法、以及工具的演进，这是衡量文明的三个显性维度。

在思维、行为、表达的过程中，每个智能体（agent）达成目标的反应模式会不断优化，这是人类技能学习的过程。这个过程和反应模式的“二态性”相关，因为具有认知态，技能可以被教授；借助认知系统，从他人目标执行样本中可以抽象反应模式，从而实现观察抽象举一反三；借助认知系统可以生成计划，然后从计划到执行；借助认知系统可以从自身的执行反馈中进行反思优化。以上就形成了4个类人技能学习能力。而这些能力几乎都依赖认知系统。

最后无论是动机分解过程，认知过程，还是技能的习得优化都依赖知识，从而就有了获取知识的过程。除了从已有的知识继承，智能体（agent）还可以从样本中发现相关性进行统计认知；继而可以从因果相关性为出发，发现、求解相关性背后的机制以实现更好的因果控制。

几个系统相互配合，不同智能活动过程交织在一起，构成了人类让文明演进的能力。以上这些人类智能活动过程的本质，借助GPT的求解能力，我们可以让这些“过程智能”真正跑起来。

任务导向Agent让大模型从工具变为智能体，让很多深度应用成为可能；而通用agent让智能体进而演变为智能物种。通用人工智能——这个新的智能物种的诞生已经进入倒计时。

▼

-END-

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业