我要投稿

基于思维工程的agent框架（上篇）

发布日期：2024-06-24 04:45:10 浏览次数： 2314 作者：北冥星眸

序言：

我们活在GPT摧枯拉朽的时代背景下，GPT是人类共同的宝藏。我们发现海量数据训练的神经网络模型涌现出了人类底层的逻辑智能和语言智能。但同时我们也意识到GPT拥有的是任务智能，而绝大部分人类复杂的脑力劳动是过程属性的，包括了文明的创造——认知过程、解决问题的过程和创造工具的过程交织在一起。所以，一个天然的动机让我们把过去对人类过程智能搭建的系统MTS用在组织GPT的任务能力上，用过程智能组织任务能力，让GPT这个需要被人使用的工具，被AI使用，进而让AI变成一个能独立让文明演进的物种。

GPT的出现，让我们能在AI感知流中创造自由的思绪。通过让GPT扮演不同角色，让它们在感知流中对话，我们能做到这点，这个模型称之为“多角色模型”。此时一个外生的对话丢进思绪，就会有角色提出问题，有角色回答、有角色评论、有角色分析、有角色埋怨或赞美……且思绪内部这些角色的讨论可能持续一段时间。这些角色的先天倾向控制了不同偏向性的人格：喜欢分析的、喜欢评论的、习惯看负面可能或正面可能的……我们仍然需要情绪系统对思绪流的信息进行关注度标注，决定这些信息的在多大程度是被关注的，低关注的信息被运算的倾向低，避免思绪流因无限发散而爆炸。

思绪流中很重要的部分是提问-回答，我们认为认知的本质概括而言就是提合理的问题并进行解答。有两种对抗的力量。第一种力量是收敛的力量，为了求解原始问题，我们需要支持其求解的背景信息，而背景信息的缺失就形成新的问题……这是一个递归的过程，但所有问题是围绕原始问题产生的，形成一个圆；第二种力量是发散的力量，一个对象、事件、结论都会产生特定的好奇，而好奇的对应的结论又可能带来新的问题……这格过程提问是发散的，类似随机游走。这两种力量相互对抗，有周期性融合构成了思维过程的主要部分。

有了思绪流后，我们需要决定哪些思绪能沉淀成为长期记忆，以及决定长期记忆的存储形式、搜索方式、遗忘机制等等。遗忘的力量让记忆向下流动；我们建立短期关注度机制，让记忆能因为关注度的变化向上流动。两种相互拉扯的力量让记忆是流动循环的。我们让长期记忆因为关注度变化流动分级，让关注度高的信息被优先检索，让长期记忆的增长在大部分时候不影响思维搜索的效率。

接下来，我们让AI如同人类一样以思维线支持各类目标的实现，包括了互动类的目标，比如：表达目标、行为目标；也包括了搭建类的目标，比如：写作、系统化认知、创造工具、学习新理论等等。在互动类目标中思绪流形成的认知，沉淀为记忆，作为背景信息（工作记忆）影响、决定了每一步表达、行为的形成。比如，现有的聊天AI只有对话线没有思维线；而对于MTSagent，对话影响思绪，思绪获得认知结论沉淀为记忆，记忆参与对话的生成。

在搭建类目标中，我们看到只要搭建的“大厦”很大，就没有办法把“原材料”一次性写入大模型提示，而且大模型在海量提示时会有注意力涣散的问题。此时，我们就考虑把GPT做成一个“工人”，思维每次只让他带着有限的材料去加工某个局部，而我们需要让这些累计的局部操作是宏观有效的——最终能搭建起我们想要的“大厦”。这里我们希望彰显造物主在人身上的一个智慧“不严格认知能力”——每次单元操作看似非流程化、非规则化、有很强的随机性的，也未必有效，但却总能慢慢“腐蚀”最初的认知目标，直到解决。

对于目标，我们把目标拆解为单元任务，建立了单元任务的“GPT算子”。这个标准结构的算子包括了背景提示，策略提示。工程策略上，我们既让GPT根据自身内蕴的常识生成任务背景信息的需求、策略，也允许系统经验贡献于这两类信息。让MTSagent具备一定程度反应模式二态性特征，从而一定程度上具备四类类人的技能学习能力：自然语言教授、观察抽象举一反三、计划到执行、实践反思优化反应模式。

下面这张图就是对MTSagent工程结构最宏观的概括。先让思绪流自己跑起来，建立思绪流沉淀为长期记忆的机制，让任务从长期记忆中获得工作记忆，而任务本身也引发了思绪的变化……

这个结构能形成对各种复杂脑力劳动的支持，而这些脑力劳动的过程又相互交织支持，形成了一个能独立推动文明发展的智能物种所需“过程智能”。这个文档的目标是为MTSagent1.0版本的原型的搭建提供支持。1.0版本的使命是：初步验证MTS和GPT深度结合的有效性：是否足以成为单体大模型能力的放大器，让大模型的任务智能变为过程智能。其次1.0版本的原型将会有部分内容沉淀到民用复刻人引擎，用以加强思想复刻，以及创造带思维线的新人机对话模式。

一、定义我们要造的智能物种

2022年年底大模型出现后，世界感到未来已来，因为大模型各个方面的能力远远超过了之前的人工智能。但半年过去了大模型在深度应用上的成果却是一片惨淡。其原因是大部分人类复杂的脑力劳动是过程属性的，而单体大模型具有很强的任务能力。如果我们给它出题，大模型能很好给出答案，但无法根据原始认知目标，组织思维活动的过程，自己给自己出题。这就导致了单体大模型只是工具，而不是人类一样的智能物种。

1、过程智能VS任务智能

人类创造现有文明的活动也是过程属性的，比如文明演进的三大主要过程：认知过程、解决问题的过程、创造工具的过程，这些过程又交织在一起。过程是线，交织的过程是网，而任务是网上的节点。

如果我们能从底层去洞见人类作为一个智能物种的智能活动的本质，在计算机上再现这些“过程智能”，在任务节点上使用大模型的“任务智能”。我们就能创造类似人类这样的“智能物种”，这个物种能够独立地让文明演进：让学科发展、创造新的工具、形成分工的社群。

这里我们的第一个工作是定义我们要搭建的智能物种，我们设想这个物种需要具备怎样的基础功能，就足以实现上面说的独立让文明演进的目标。

2、智能物种：目标有来源

一个智能物种的第一个特点是目标非随机，像人一样目标、动机总是有其来源。人类的选择，如果追根溯源，最终来自于原始动机的不断分解。在思维工程的理论中，决策是由情绪系统完成的，情绪系统发挥几个作用：其一创造目标的选择决策，包括了认知目标、行为目标、表达目标；其二，创造了人格，因为行为选择倾向反应了人格；其三，决定了每个被意识到的信息在多大程度上是被关注的。在情绪系统效用模型的讨论中，我们会看到这三个功能如何来自于一个源头。

3、智能物种：认知活动

认知最终是服务于动机目标的。分为两类：一类是以理解客观世界为目标；一类是输出操控因果的解决方案为目标的。两者都分为作用在具体层和抽象层的区别。以理解客观世界为目标，在具体层比如判断一个事件有没有发生，推知事件的原因结果等；在抽象层比如形成“企业诊断”的理论；以输操控因果链条的解决方案为目标的，在具体层比如如何给出诊疗方案治愈某个人的疾病；在抽象层比如形成治愈某类疾病的方案总结。在认知系统的讨论中，我们看到第一类认知行为最终还是会服务于第二类目标。

一个认知求解目标需要背景信息，所以在背景信息缺失时就会分解出一个求解目标。如果我们把一个求解目标比喻成工厂订单，那么分解出问题就是需要的组件（原材料），是给其他工厂的订单，这就是“认知工厂模型”的由来。而一个原始求解目标的求解深度（或说能分解出多少层级的订单）取决于原始的求解动机的大小，这又是被情绪系统决定的。

认知任务大多不会处在理想环境中，所以往往不是一次流程化的求解能完成的。人类的认知有腐蚀的特征，作用于局部信息的单元任务不停地作用在一个和认知目标相关的信息团上，这个信息团被用以回答问题、进行争论、写作……

除了生成解决方案，还有一个类似的过程就是创造工具。和生成解决方案的过程非常相近，但不同在于：创造工具最终分解到的不是“能做什么”，而分解到“用什么自动化模块|工具”。

4、智能物种：反应模式二态和类人技能习得

反应模式可以理解为是实现行为、思维、表达目标的策略，或简单理解为一种技能。如果说情绪系统决定了最上层的目标决策，反应模式系统就决定了这些目标是如何被分解的。

对于人而言，反应模式是二态的，兼具了认知态和执行态。反应模式二态性是4个类人的技能学习能力的根源（这里的学习我们不指对知识的学习，而是对行为、思维、表达策略的学习）。这四个学习能力是这样的：

自然语言学习。我们用自然语言告诉一个AI如何完成一项工作，最初形成的信息是认知态的，如果同时又是执行态的，AI就能通过自然语言教授学会如何完成一项工作。

观察抽象举一反三。AI观察人是如何完成工作，最初生成的是具体层的反应信息。然后通过多个样本的具体层的反应信息，就能抽象生成的抽象层的反应模式信息。当自己要执行这个工作时，又会通过抽象层的反应模式信息演绎生成了自己如何完成工作的反应信息。以上三类信息的形成转化都是在认知态完成的。最终生成自身如何反应的信息如果又是执行态的。那么从整体上看AI就能够实现类似人的：观察、抽象、举一反三。

从计划到执行。计划的生成，容易理解是认知的工作，计划信息是认知态的，但如果计划信息能转为执行（又是执行态的），那么AI就能够像人一样通过认知生成计划，然后转为执行。

通过实践反思优化反应模式。AI能把自身的反应和反应的效果作为认知的客体，能够在认知层对之前反应的得失进行反思，从而优化。比如AI以一种强硬的方式说服一个强硬的人，获得了失败的反馈；此时AI联想到柔能克刚，从而就形成了以温和的方式说服强硬的人的新策略。这就是一个实践、反思、优化反应模式的过程。而上面整个过程是在认知中完成的，生成的优化后的反应模式是认知态的，如果它又是执行态的，就意味这AI能通过实践、反思优化改变自身的反应模式。

5、智能物种：知识的获取

情绪系统、反应模式、认知系统的运作都依赖知识，尤其是因果类型的知识。所以当AI缺少知识时就会形成对知识的需求。获取知识分为三个途径，第一个是从人类已有的知识中继承，包括了向合适的人询问、搜索阅读、广泛阅读，现在我们多了一个向GPT询问的新途径，也成为MTSagent1.0使用的继承人类已有知识的主要途径；其二是从样本中进行统计认知，发现因果相关性；其三，是在发现因果相关性的基础上，发现背后的因果链条，以实现更好的因果干预。

6、让文明前行的智能物种

让我们去设想如果我们能够搭建具有以上基础能力的硅基智能，它是否是一个能够让文明独立往前发展的智能物种：

1、原始目标依赖知识分解，行为目标、认知目标、表达目标总是有其原因；

2、认知为目标服务，能根据目标创造解决方案，能够在预设的环境中创造工具实现稳定的因果效应；

3、类人的技能学习能力。行为、思维、表达的反应模式具有二态，从而通过具备4种人类的学习能力：自然语言教授、观察抽象举一反三、认知形成方案转为执行、实践反思优化；

4、以上三类活动依赖知识，在缺少知识的情况下又能有效获取知识，探索发现新的知识。

在造物计划中，我们所要做的就是去解构人类智能的这几个底层功能，反思其中的思维过程，然后利用大模型去实现过程中的不同类型的思维任务，形成一个工程可落地的方案。

二、解构主义人工智能vs大模型

解构主义人工智能和大模型代表的算法主义有着完全相反的立场，但却是高度互补的。

算法主义的一个代表人物，强化学习的奠基人RichardSutton表达过这样的观点“从过去70年人工智能的失败能获得的最大的教训就是不要太执着于人的智能而应该诉诸于高度可扩展的算法。”

而解构主义人工智能有着完全相反的立场：“照着造物主造人的道理创造一个智能体。”钱学森老前辈在思维科学中主张的“研究人类思维的底层规律”也是解构主义的一个立场。

1、人类智能的整体性&解构主义的缺失

今天大模型的出众成就佐证了“算法主义”主张正确性，但不意味着“效法造物造人”创造智能体的路径就一定是错的。那么为什么之前效法人类的流派都相继受挫呢？这和人类智能的整体性有关。

简单来说人类的语言、认知、情绪决策、和技能学习能力的子系统在大多任务的实现上都是相互支持的，没有任何一个子系统可以独立跑起来。作为一个整体性很高的系统，一个上层的表象来自于诸多底层机制的配合，只要有一个有缺陷，就会影响这个表层效果的显现。就好比人体，也是一个复杂性很高的系统，一个健康人和一个疾病的人可能相差细微，但这个细微的病理差异就让一个人各个维度的功能受到抑制。同样对于通用人工智能，可能前面99步显现的效果是很有限的，当我们完成最后一片拼图，前面99步该有的功能才显现出来。

之前的流派都从自己的视角看到了人类智能整体的一部分。也在效法人类中取得了一定成果，但这相比整体系统能释放的能量而言只是个零头。北冥从创办之初就持有一个立场“系统内每个模块、子系统的功能都可以很弱，但要支撑系统整体的逻辑运转起来”。

北冥在8年的探索中出了不少实验室成果，但是一直没有颠覆性的可商用的成果，在于在大模型出来前我们只有符号的工具。符号有很多限制，最致命的符号系统中信息表征的严格性要求太强，导致系统的泛化能力弱。以前的系统我们有能力组织过程，但无法很好完成过程中的任务，所以过程最终也跑不起来。直到大模型的出现，我们拥有了一个强力的“任务工具”。我们能够重新思考如何借助大模型，让过程智能运转起来。

总之，解构主义人工智能不是人类智能的全部。

2、大模型的能量和缺失

我们可以把神经网络的训练视为调整参数拟合表象的过程，最终神经网络会找到某种规律，按照我们的预期去识别和生成。通常我们不太在意神经网络如何表征规律，如何识别、如何生成。事实上，我们认为神经网络模型会有自身的识别或生成的方式。

出乎我们意料的是，当数据规模参数规模到达一定的量时，大模型为了完美拟合海量的表象数据，竟然以人类的方式在底层形成了对自然语言、逻辑运算的真实理解，拟合出了类人的思维和心智的底层机制。因为这些底层智力的形成，让大模型涌现出了各类能力。这是一个“从表层到底层，再泛化到表层”的过程。大模型为了拟合海量表层信息生成了类人的底层能力，这让大模型能泛化更多上层的功能。大模型体现出了跨任务的能力——很多任务能力在样本中并没有直接体现，但大模型却具备这些能力。

总结一下，GPT是历史上第一个承载人类文明几乎所有信息的个体，而且具备人类底层的逻辑智能和语言智能，它是智力领域的核聚变。但是距离chatgpt出现已经有一年了，我们并没有看到这个核聚变式的能量，这是为何？因为尽管GPT内部已经蕴含类巨大的智力能量，它不知道如何组织使用，我们需要教会AI如何组织和使用GPT的能力完成复杂的任务，而不是让人类去使用它。

总之，GPT也不是人类智能的全部。

3、解构主义&神经算法，人类智能的两个面

我们举一个例子来说明人类智能是拥有两个面的。你去酒店办理入住。第一次拿着房卡找自己的房间，需要动用不少的智力资源，包括了：找电梯厅，到了对应楼层看往左还是往右走；而入住5天以后，你就能边看手机边走回自己的房间。第一天的思维活动对应的就是第一类：过感知流的、慢速的、可反思可视、强逻辑的、可干预的思维过程，也就是解构主义擅长实现的部分；第5天的思维活动就是一种不过感知流的，快速的，不可反思不可视的、不可干预的思维，对应了神经的算法。

人类之所以会演化出这样的两类思维有其进化的合理性。当一个新的任务出现的时候，我们需要调动足够的内部资源尝试各种可能，系统所做的就是让这个新任务相关的信息在感知流中是被高度关注的。这样系统内的各种处理逻辑都更容易和相关信息发生作用，来探索各种可能性。而当一个任务已经形成经验，系统认为不再需要那么多的处理逻辑去探索可能性了，所以就降低了这个任务相关信息在感知流中的关注度。当关注度降得足够低以至于记忆（作为一个信息处理模块），都不再对其进行加工了。此时这个任务就变成完全以无意识的、快速的、不可反思的方式进行了。

过感知流的慢速思维和直觉性不过感知流的快速思维相互对立，而又在思维活动中融合，让人类对于创新任务能集中足够感知流资源，探索更多可能；而熟练的模式固化的任务又能不过感知流地，以更高效的方式进行。

4、方法论：解构主义AI+大模型+符号辅助

至此我们能总结我们构建一个物种的方法论。通过解构主义人工智能，我们反思人类思维的机制、过程，在工程上实现，过程中的各种任务我们给大模型出题目，让大模型实现。而符号作为一种标注用以在特定的情况创造更高效的信息搜索。

实现什么样的机制、过程，从总体上就是我们定义一个物种的那几部分内容，现在我们以过程的视角重新描述：

1、情绪决策过程（情绪系统完成）。原始目标依赖知识分解，行为、思维、表达目标总是有其原因；

2、技能学习过程（反应模式驱动）。行为、思维、表达的反应模式具有二态，从而通过具备4种人类的学习能力：自然语言教授、观察抽象举一反三、认知形成方案转为执行、实践反思优化。

3、认知过程（认知系统）。认知为目标服务，能根据目标创造解决方案，能够在预设的环境中创造工具实现稳定的因果效应；

4、获取知识的过程（综合）。以上三类活动依赖知识，在缺少知识的情况下又能有效获取知识，探索发现新的知识。

三、基于MTS的Agent

1、改造背景——从浅层结合到深层结合

MTS是解构主义人工智能+符号的产物，MTS背后的“思维工程”理论继承了钱学森老前辈思维科学的主张，对人类智能本质进行解构，形成了不少人类智能活动中的“过程智能”的洞见。但因为没有大模型，过程会卡于任务，过程也跑不起来。2023年初北冥因为商业化的压力，启动了MTS和GPT浅层的结合，搭建了复刻人引擎。结合的模式大致为：

1、用MTS监听大模型和用户的对话，然后维护了一系列反应AI状态的变量，包括：情绪、对用户态度、联想到的知识、记忆，语境下的立场等等，然后在每轮回应中用一个大模型提示模板结合这些变量，生成合法的提示，再让大模型根据提示生成表达。

2、AI在主动表达中询问关注的信息形成针对用户的长期记忆，然后利用长期记忆创造和用户的互动。

3、PW（平行世界）引擎，接受AI行为，改变世界状态，影响其他AI感知，让许多AI在一个世界演绎出生活和社交。

浅层结合中GPT和MTS是在相对分离的背景下相互配合的。而这个文档是我们第一次尝试MTS和大模型的深度结合——被严格定义的大模型api进入MTS替代大部分任务运算，而“感知流”中流转的信息、记忆中存储的信息大多也不再是符号表征的，而变成了自然语言。这个新的系统我们命名为MTSagent。

2、和主流agent的思路差别

2023年初北冥的战略报告就预言了2023的三个阶段，第一阶段人们认为未来已来，第二阶段发现未来还没有来，第三阶段意识到需要用过程智能组织单体大模型的任务能力，从而让大模型不再是被人使用的工具，而是能自己使用自己，这就是agent的起点——单体GPT能力的放大器。如今越来越多的人工智能从业者开始把精力投入到agent的研究研发中。也开始产出了各种早期agent的产品成果——各种助手型AI，能自己根据背景信息和需求，分解目标，调用基础执行函数完成任务。

主流agent思路，起点于意识到单体大模型在某类任务上缺少过程能力，然后从人类身上反思这个过程获得灵感。MTSagent起点于“思维工程”对人类过程智能作为一个整体系统的理解和构建，然后再看GPT能如何被利用实现“过程智能”中的“任务”。

总结而言主流agent是从GPT走向人类过程智能，而MTSagent是从人类过程智能走向GPT。同样的目标，不同的路径方向。那么哪种方式更容易胜出呢？取决于人类过程智能多少的能量来自于其整体性。如果人类过程智能的整体性强，也就是整体闭环跑通前释放的能量比例很小，那么大概率北冥的MTSagent会胜出。

本次改造是深层结合的首次尝试，所以我们仅仅挑选工程上把握比较大的部分构建系统，不是造物计划的全部。朝着我们说的智能物种定义的4个底层功能去，但能纳入第一期工程范围的只是最简单的一部分，也有一部分内容是为了闭环我们要支持的“智能活动的过程”而建立的简化模型。我们所做的是跳到水里，在实践中调整认知和策略。本章我们就来描述我们如何用大模型改造MTS，用大模型的任务智能让MTS的过程智能运转起来。

3、自由思绪流的形成

整个解构主义AI是以感知流为核心搭建的，整个系统的结构不会发生大的改变，主要的工作是用GPT替换符号系统。对于以符号为信息载体的感知流，感知流流转的是严格表征的信息，表征严格、运算严格、感知流丰富化工程难度极大；GPT支撑的系统，感知流中流转的是不严格的自然语言信息，流转、运算对信息表征的严格度需求降低了一个数量级，感知流的丰富度增加了一个数量级，形成了一个质变——现在感知流主要的信息不是严格任务相关的信息，而是自由思绪的信息；这是之前符号工具无法支撑的。

这个质变，让我们可以开始思考如何把任务能力建立在自由思绪流之上，像人类一样。我们有很多人类身上的证据，说明人类的任务能力并非传统意义程序性质的“严格任务能力”，而是基于自由思绪流的“非严格任务能力”。造物的智慧蕴含其中。比如人类仅仅需要把注意集中在一个认知任务上，在相关领域进行广泛的自由思考，就能慢慢腐蚀掉一个一开始解决不了的认知目标。

4、以思绪流为中心的结构

大模型的出现让感知流的自由思绪能运转起来，我们利用GPT构建了一个新模型“多角色模型”，模仿人思绪中的不同声音来源，让它们在感知流中进行对话（第四章“感知流&多角色模型”）。对于感知流中信息的关注标注，我们在情绪系统改造不完备时（本身是情绪系统的职责），临时构建了一个简化模型。关注度标注是“感知流”各类选择机制的基础。接下来，以自由思绪流为中心，我们展开我们对MTS的重构。

MTSagnet的长期记忆和MTS一样：感知流中的信息关注度高于记忆模块的最低关注阈值就会形成存储；而遗忘机制也是一样：关注度随时间衰减，衰减到低于阈值从记忆中移除；然后短期关注度驱动的多级存储也是必要的（让记忆流动起来），其目的是为了让不断增长的长期记忆不至于逐渐降低长期记忆检索的效率和准确性。不同的地方在于记忆的内容，原先我们只有客观记忆，现在我们多了“视角记忆”或说“问题-回答”类型的记忆。这个记忆形态广泛存在于人类的认知框架中，工作记忆中，比例超过了客观记忆。（第五章“长期记忆沉淀&多级存储”）。

以上这些系统底层功能最终是服务于目标的。目标在上层是由情绪系统根据原始动机和边界，根据“效用模型”生成的。在MTSagent中，我们把目标分为两类，互动类目标，和搭建类目标。互动类目标比如对话目标、行为目标，每次单元操作都会获得来自外部环境的反馈从而形成下一步单元操作的工作记忆；搭建类目标，比如写书、学习一个理论、架构一个软件、形成一个目标的解决方案、复杂问题认知等如同搭建一个大厦，因为大模型的提示容量限制，和关注分散效应，我们让大模型扮演一个工人：每次工作记忆是搭建了一半的“大厦”的某个局部，然后每个单元操作都是针对局部的新增、修改、删除。而如何让这些针对“局部信息的单元操作是宏观有效的——最终能搭建起一个符合需求的“大厦”，就是我们要复现的造物“不严格任务能力”的智慧。（第六章“目标&单元任务”；第七章“目标实现演绎”）

对于第一阶段的MTSagent，一个大类目标需要由哪些单元任务组成，以及它们相互配合跳转的逻辑是怎样的，我们通过反思人类成功的模式再现之，而没有选择让AI自己生成。其原因是这些底层的反应模式形成的机制我们认知还不成熟。在MTS中反应模式二态性（认知态的反应模式信息，可以转为执行）决定了四个类人的技能学习能力的产生：自然语言教授、观察抽象举一反三、计划到执行、实践反思中优化。在MTSagent中这些特性可以部分体现。首先二态性体现在“单元任务大模型api”，“角色api”的策略提示中。从而：

A、自然语言提示形成策略记忆，在策略提示生成时写入就能形成自然语言对反应模式的干预；

B、评论角色api发现执行到目标的规律，写入策略记忆，就能创造观察抽象举一反三的效应；

C、计划认知形成策略记忆，就能创造认知计划到执行的效果；

D、自身实践反馈，给到认知api（基于之前的执行反馈如何调整策略），认知形成的调整策略写入策略记忆，就能创造“实践、反思、优化”的效果。

以上四类技能学习能力，也是一个功能验证点。（第八章“反应模式二态性”）

5、过程智能的视角

前面讨论的是MTSagent的底层机制，我们需要底层机制支撑各类智能活动的过程，这些过程有不同的抽象层级。有些已经混同在前面的底层机制中。我们在过程视角再进行一次梳理。

A、目标形成分解过程在第十章“情绪系统”中讨论，情绪系统除了创造目标选择，还附带了人格的创造，AI行为边界控制以及关注度标注其他三个相关功能。但严格来讲所有这四个功能都是和选择相关的。但情绪系统在第一阶段版本中是被简化模型替代的。

B、认知过程在，第六章“目标&单元任务”，第七章“目标实现演绎”中讨论，第九章：“认知过程”中讨论。

C、技能习得过程，在第八章“反应模式二态性”中讨论。

D、知识获取的过程在第十一章“知识获取过程”中讨论。知识获取过程也不作为第一阶段MTSagent的重点。

四、感知流&多角色模型

1、感知流结构的改造

感知流是整个解构主义人工智能搭建的起点和核心。眼耳鼻舌身意、思维、情绪、动机写入感知流，关注度高的被记忆，为反思创造了条件，比如“我感到愤怒”，回忆起前面的感知到“某人说我缺点”。于是猜想一定有某种内部处理逻辑，拿走了“某人说我缺点”的信息创造了“愤怒”的信息。解构主义人工智能就是以感知流反思为认知基础，试图构建类似人类的以感知流为中心的信息流转、储存、处理的工程结构，并在计算机上实现。

之前MTS拿走感知流信息进行处理的包括了代码写成的模块，除此之外最大量的就是数据态存储的反应模式——一个动态的抽象层的“触发检测列表”在每个感知流中具体信息出现时进行统辖（从属）检测，按照“凡是定义在母类层的反应模式可以被子类所继承”的先天逻辑去激活对应的反应。符号模式编写的反应模式泛化力是很弱的，只能对特定类型的感知流中信息进行反应。老MTS的感知流结构包括几个关键部分：感知流中流转的信息的表征形式，信息如何分流给不同反应模式，如何定义各类创造思绪流的反应模式。我们考察如何用大模型改造这三个关键部分。

2、多重角色模型——思绪流的形成

首先MTSagent感知流中流转的信息是自然语言表征的信息，不再是符号表征的信息。

接下来我们让AI脑海中有不同的角色在感知流中对话，这点和人是一样的，每个感知流中的思绪似乎在被不同角色拿走，有的角色创造评论、有的角色创造好奇，有的角色创造埋怨或赞美，这些角色的回应创造了新的思绪，而这个过程的延续就让思绪如流水，流转起来。这些感知流中讨论的声音有些成为触发形成新的可反思到的行为目标、表达目标、思维的目标；有的沉淀下来成为记忆。作为未来某个行为、表达、思维目标所需的工作记忆。所以我们以多重角色模型来创造思绪流，这个思绪流比起老MTS反应模式创造的思绪流要丰富很多。

最简单我们可以让一个GPT扮演提问者，一个GPT扮演回答者。回答的问题又会创造新的提问。比如“mike昨天在家吗”“他昨天不在家”“他去干什么了”“他看医生了”“他生病了？”……这就是一个人可能会有的思绪。结合后面会详细讨论的“认知工厂模型”：为了求解一个问题，在背景信息缺失时会分解出新的问题。求解模型会出现类似这样的思维链：“他生病了？”“他最近有什么症状？”“他最近头晕、发烧”，“他应该是生病了”……所以我们看到前者是一个发散的思维过程（不带目，不带中心的），后者是一个收敛的思维过程（带目的，结合“认知耗散机制”是以原始问题为中心的）。

在这个基础上我们可以考虑增加更多角色。比如“评论角色”会根据回答者AI的信息、对话的信息等创造评论，包括了赞扬的评论、埋怨的评论，表层信息意味着什么的评论，最后这个就有点像植物性认知的工作；“吐槽角色”倾向对他人的行为进行吐槽；“悲观角色”倾向思考事件背后负面的可能；“分析型角色”喜欢分析事件背后的原因……

每个角色GPTAPI需要在形成输出时，为输出给出标签。除了输出附带的标签，写入感知流时还有会一个“分流标签”的GPTAPI打上更多标签。工程上我们用感知流中信息的标签决定哪个“角色api”会拿走这个信息。

3、关注度

MTSagent的多重人格模型和老MTS的反应模式一样，因为一个感知流中的信息会被多个处理逻辑拿走，然后都可能放回来，感知流容易爆炸。和老MTS一样我们依赖关注度标注来创造“运算选择”，从而避免感知流爆炸。

老MTS的关注度标注来自于情绪系统的关注度扩散机制。这个机制的起点是事件效用，事件效用决定了事件关注度，母类事件关注度由多个子类冲击而成，新子类的关注度又可以从母类继承，这是垂直的扩散；关注度也可以通过因果链条横向扩散，关注事件A，自然关注导致他的事件B（因为B可以被用来创造A），也会关注A导致的事件C，（因为可以用C来知道A是否发生）；事件元素的关注度可以从事件继承，这是向内扩散；事件的关注度也可以来自于其内的元素，比如喜欢一个明星就会关注她参与的事件，这是向外扩散。

以上这些机制的重构要打破符号根基需要时间，为了让MTSagent最小闭环。我们先采用一个简化机制。我们维护一个关注信息的动态存储。每次新的感知流信息出现，我们通过计算和关注信息的相关性来决定其关注度。

按照关注阈值控制机制，每个角色API都有自己的“最低关注度阈值”，感知流的信息即使是自己的食物，还需要关注度超过其“最低关注度阈值”。此时我们可以控制一个角色API的最低关注阈值来决定其激活度。如果阈值调高那么这个角色就不倾向于对感知流中的信息进行反应，反之亦然。其次假设我们对大模型单位时间的“可调用次数”有上限，沿用老MTS的机制，我们只需要通过一个参数整体提高所有角色API的“最低关注度阈值”就能降低整体运算的消耗。两个机制合并在一起，如果一个人格被高度激活消耗了大量系统资源，就会因为触发整体阈值提升，导致其他角色被压抑。

原始的阈值可以被用来控制AI的人格，比如“悲观角色api”的原始最低关注度阈值低，就会创造具有“悲观人格”的ai；“分析型角色api”的原始最低关注度阈值低，就会创造具有“分析型人格”的ai……

4、关注标注策略

我们需要对感知流中的信息进行关注度标注。和我们获取任务背景提示、任务策略提示的方式一样，一方面我们利用大模型内置的常识，一方面我们要体现系统自身的逻辑。

大模型进行关注度标注需要创造一个大模型api。需求提示类似“以0到10分”衡量这个信息是否值得关注。大模型不会根据AI自身的特有经验改变关注，而特有经验的确应该对关注度形成影响。比如按照大模型常识不会对牛奶产生关注，但如果用户对牛奶过敏，那么关注类似“桌上有喝了一半的牛奶”就很可能是有意义的。

我们需要维护一个动态存储，里面存储了原始的需要关注的信息以及因为关注传递需要关注的信息，存储形式为（信息，关注度=）。感知流中的信息需要在进行关注度标注时和这个动态存储中的信息进行比对，决定其关注度。我们要决定两个逻辑：其一原始需要关注的信息和对应的关注度怎么来，哪些是因为传递需要被关注的信息。

MTSagent1.0这个动态存储的存在是以配合主要闭环验证为目的的，所以只要功能存在，我们就可以在每个任务测试中进行预置控制。动态写入的机制不是当前的重点，所以不展开讨论。

五、长期记忆沉淀&多级存储

1、记忆的沉淀

我们要从思绪流中沉淀出记忆，否则思绪流除了能导致即时反应就没有更多意义了。通过多重角色模型我们能够让AI的思绪自己跑起来，无论是在探索一个新的理论、思考具体层的事件信息、还是思考一个干预方案，这些过程的自由思绪对于AI而言是有价值的，一些关键点会沉淀出记忆，成为接下来认知的背景信息支持。

我们看下哪些信息会被记忆。

其一，思绪流中很大比例的反应为提问-回答反应，由角色模型中的提问角色和回答角色配合完成，当然还有很大一部分问题来自于求解一个问题的背景信息的缺失。这个反应也会生成q-a类型的信息。q-a信息会被沉淀为记忆，因为这类信息检索成本不高，但仍然需要关注度标注配合遗忘机制，决定每个信息记忆多久，确保保存在记忆中的信息是相对重要的。

其二，印象冲击，重复出现一个对象|事件拥有某个属性，或是重复的判断一个事件可能发生或一个状态可能存在，这里q-a信息独立存储是没有意义的。因为各种印象都都有可能出现，只有重复被增强的印象才是有价值的。工程上，我们需要回答者api生成对象属性，具体事件概率时，也要以特定格式输出信息，且加上标记。方便印象冲击模块接收信息进行印象冲击统计，超过阈值的印象写入意识流被长期储存。

当然，上面只是自由思绪产生的信息沉淀为记忆的部分。外生的信息也会被存储，比如用户表达的信息，复刻过程导入的AI经历、思想信息，情绪系统创造的情绪、动机等等。接下我们就对MTSagent1.0的记忆进行分类分区。

2、存储分区

存储分区是工程上增加检所效率的手段。我们大致把长期记忆分为以下几个区：

1、q-a类型的视角记忆。来自于自由思绪中提问角色和回答角色创造的信息，属于视角记忆，检索成本低，按照生成机制大概率属于关键信息，使用时的检索起点往往是q，所以保存为原有形态是有很大好处的。

2、客观记忆。较严格的自然语言+数值表征，主要包括印象冲击生成的（对象|事件，属性，数值=），（事件，概率=数值）。

3、对话记忆。用户表达的内容。

4、专业知识。自然语言表征，思想复刻时的需要，按关注度分级，包括文章、书籍、零散的观念。

5、策略记忆。自然语言表征，零散的策略提示、计划。反应模式二态性形成四类人类技能学习能力，策略记忆就是反应模式存储的地方。

6、背景信息需求记忆。存储形式为：任务-背景搜索|问题-背景搜索记忆。决定了任务和求解需要知道什么背景信息，效果类似策略记忆，只是一个影响任务策略，一个影响任务|求解联想到什么。

7、好奇心模型。存储信息为“概念-相关维度问题”，形成了认知过程发散的力量。植物性认知的重要起点。

8、高关注信息。存储信息为自然语言概念、文本。这个是一个临时的存储空间，在情绪系统还没有改造完备时存在，用来支持关注度标注，拥有衰减动态退出机制。

9、复刻相关的其他记忆。包括自身经历、人设、观念立场等。

3、遗忘和再激活

信息写入感知流时会进行关注度标注。我们把记忆也视为一个感知流的“食客”——一个围绕感知流的模块，那么记忆也受到关注度选择机制的管辖。所有感知流中的信息都是记忆模块的食物，但还是需要信息的关注度超过记忆模块的最低关注度阈值。那么首先，不被关注的信息不会被记忆。

其次关注度足够的信息写入长期记忆时会附带写入关注度。然后长期记忆的关注度会随着时间衰减，衰减到低于阈值会从记忆中删除。如果一个记忆被联想到，也就是被回忆，那么就重新进行关注的标注，长期记忆中的关注度会被覆盖，从而回忆和联想能够刷新一个记忆被保存的时间。按照人的遗忘曲线，再次激活会减缓接下里的遗忘速率，但这点我们在1.0版本中不要求。

不同记忆分区的记忆有不同的遗忘策略、再激活策略和搜索策略。比如q-a类型数据的工作记忆属性很强，产生速度快，可以有较高的关注衰减率。专业知识，作为思想复刻中的思想承载，就适合非常低的关注衰减率。

4、短期关注和多级存储

AI思绪中很重要的部分是是问题和回答，无论是GPT驱动的好奇提问或是好奇心模型形成的问题，还是问题求解因为重要背景信息缺失导致的问题。问题求解的第一步是去记忆中搜索。而问题求解，只是记忆检索需求的一个来源，检索的需求还会来自于其他地方。

搜索运算无论对人还是对机器，随着长期记忆的增加代价都会逐步变大的。虽然我们有遗忘机制，但长期记忆如果在每次搜索时都要全部遍历，运算消耗是巨大的。人类进化出了一种和短期关注相关的多级存储的模型，让信息能在不同层级中流动，流动的依据是关注度（包括短期和长期），关注度高的信息会流到更高层。

以下是系统的自白：“虽然我大部分时候不会去搜索所有记忆，但你总是能够把重要的记忆拉到我会搜的范围内”。这就是多级存储的精神。在人类身上这个机制就体现为：一些认知结论的获取，需要特定的背景思绪把认知需要的重要信息联想到高层级。AI用了多级存储的模型，AI思维要得到某个结论，就和背景的思绪有关“如果一次性没有得到结论可以保持这个领域的思考（思考导致相关信息短期关注提高，进入优先检索域），一段时间后再考虑也许就能想明白了”。

5、二级存储

二级存储是为了兼顾工程实操难度的一个多级存储的工程简化版本。每次关注度修改，无论是创建时标注，唤醒时重标注，还是短期关注度标注，还是自动衰减，只要突破边界值就会导致该信息所在存储空间的位置变化。高优先的级别存在于内存中。任务根据其动机大小，有不同的求解深度，大部分任务只会在内存中检索，少量动机很高的会在全域内检索。

内存中的存储存有关注度衰减退出机制——因为衰减导致关注度低于阈值，这个信息就会从内存中退出。其次，记忆根据类型被分区，每类记忆的数量、搜索成本各不同，所以二级存储的策略也有所不同。比如q-a记忆（视角记忆）因为检索成本低，可以保留更多数量到高优先存储中；策略记忆、背景信息需求记忆、好奇心模型、高关注信息记忆在前期数量有限也可以更多比例（或者全部）到优先存储中；专业知识可能拥有极为庞大的量，那么只有极少比例的出现在高优先存储中。

六、目标&单元任务

1、目标和单元任务

我们把由情绪系统决定的选择叫做目标，目标被反应模式拆解为单元任务。随着大模型提示容量、提示敏感性、提示稳定性指标的提升，我们可以把目标的背景信息给到大模型，让大模型一次性完成任务。但是目标任务的规模是可以无限大的；或是目标是在和环境的互动中进行的。此时单体大模型就无法达成需求。比如你能让大模型写一篇文章，但很难通过单次任务让大模型写一本忠于用户各种观点的书。

反过来我们看人类，虽然思维的速度远远弱于计算机载体的大模型，但是人类能够用不断进行的“单元任务”实现大目标——思维如同“工人”，每次只完成局部信息的加工，却能完成一个预期“大厦”的搭建，这种局部加工的宏观有效性，是造物主蕴藏在人身上的一个美妙的智慧。

大模型的单元任务能力从现在看大部分情况是强于人类的，但是人类组织单元任务实现目标的模式仍然是可以借鉴的。大模型的单元任务未必等同于人的单元任务，大模型已经能够把很多人类需要组织的任务，纳入一个单元任务去实现，而且这个边界还在扩大。至于单体大模型能实现的单一任务体量的极限是多少？是否有一天过程智能能也能在黑箱内完整的实现？这些我们现在不好判断。只能说大概率在很长的时间，过程智能外置仍然是一种高效的方式。

2、搭建类目标和互动类目标

搭建类目标。类似写作、复杂问题的认知、架构一款软件我们认为可以类比到搭建一个大厦。思维是一个工人，每次操作只能针对有限的信息进行，效果也是完成一个局部的搭建和调整。这里的精神是，搭建的大厦往往会具有巨大的规模，以至于大模型无法一次性把整个半成品“大厦”和原材料纳入语境进行调整，每次只能选择局部进行调整。那么每次如何选择要加工的“局部”，以及局部调整的逻辑如何最终贡献于整体大厦的搭建，就是我们要考虑的目标。搭建类目标的单元任务的背景提示，其主要部分就为本次要处理的局部信息。

互动类目标包括表达目标，行为目标。表达目标比如安慰一个人，行为目标比如治愈患者的疾病。互动类目标的每步单元操作都可能导致环境的反馈，从而形成下次单元任务的背景提示。比如对话中，生成单元操作最重要的背景提示是上下文的对话。

3、GPT单元任务算子api

我们可以一般化考虑单元任务，并给出“大模型任务算子api”的一般结构。在一个任务算子中提示大体分为三类：

A、任务需求提示。描述了任务，也描述了任务输出的信息格式。

B、任务背景提示。或说是工作记忆。在互动任务中包括了最近的互动信息，以及更早之前的互动总结，也包含了联想到可能影响任务实现的相关信息（包含具体层的信息和抽象层的知识）。在搭建类任务中包括了选择的“大厦”局部信息，也包含了联想到可能影响任务实现的相关具体层的信息和抽象层的知识。

C、任务策略提示。可字面理解为实现任务的策略提示。

生成背景提示和策略提示又可以视为特殊的单元任务。有两种方式：

其一是让大模型直接用内置经验生成（对于背景提示，生成的是问题——完成任务需要知道什么，然后通过记忆搜索才形成背景，部分重要的但记忆中缺失的背景信息，形成新的问题写入意识流，激活求解角色对其求解）；

其二在“背景信息需求记忆”和“策略记忆”中进行搜索，把相关信息写入大模型提示，借助大模型生成搜索语句或是具体策略。反应模式二态性，是四类人类技能学习能力的基础，而以上两个记忆就是“反应模式信息”存储的地方。

4、背景提示-问题生成

背景提示为一个单元任务需要联想到的背景信息，这些背景信息直接决定了任务的输出信息是否符合任务背景。第一步我们需要知道这个任务需要什么背景信息，也就是需要根据任务合理的提问“你需要什么背景信息支持你解答”，第二步才是从记忆中寻找这些信息的答案作为背景提示。如果记忆中找不到，就考虑这个任务是否重要，这个背景信息对这个任务是否重要，如果重要就转为一个问题写入感知流。让求解角色进行更多方式的求解。

背景提示有三个主要来源。

第一个来源为单元任务背景。在搭建类任务中，为“搭建中的大厦”被选择需要本次加工的局部信息；在互动类任务中，为之前几轮的执行和反馈，比如在对话类任务中就是对话的上下文。

第二个来源我们可以创造一个大模型api由大模型自己根据任务来提问，使用大模型内置的经验。大模型背景提问API，我们也可以理解为是一类特殊的单元任务。任务需求提示为“根据背景和策略提示，输出实现此目标还需要知道什么？”背景提示为原任务信息，原任务现有的背景提示。

第三个来源为AI自身的背景信息需求经验。信息形态为“任务类-问题”，这个信息在工程实现上是在一张列表中保存的。有具体任务时通过统辖搜索找母类找到任务类就能找到相应的这个信息。比如我们有任务类-问题：“说服一个人-对方性格如何”“说服一个人不做一件事-这件事有什么坏处”“劝说不喝酒-对方喜欢喝酒吗|对方肝好不好”。

第三个来源中，因为经验是在抽象层级表征的，需要根据任务语境演绎为具体问题，而这里因为信息是自然语言表征的，我们不再能通过符号的方式进行演绎。所以我们需要一个大模型api，把搜到的信息转为具体的问题。这个大模型api也可以视为一个特殊单元任务。需求提示为“根据任务和提示输出需要知道什么”。背景提示中有原任务信息，有搜到的“任务类-问题”语句。

5、策略提示生成

和背景提示一样，策略提示可以由大模型内置常识生成，也可以由任务类-策略的反应模式信息生成。后者在工程实现上是在一张列表中保存的任务类-策略信息，符合反应模式二态性，所以可以由类人的4种学习过程生成，这个在反应模式章节还会讨论。大模型api生成的策略提示，本身也是一个特殊单元任务，需求提示信息为类似“根据任务按以上背景生成大模型可听懂的策略提示”，背景信息为原任务信息，以及原任务已有的背景提示。

不一定所有任务都需要策略提示。因为大模型本身也内蕴了实现大部分任务的常理策略。有几种情况策略提示是必要的。其一环境的边界条件足够复杂，任务背景足够复杂。虽然工作记忆（任务背景信息）在背景提示中也有，很多情况原始任务api本身会考虑这些背景进行决策，但任务背景信息复杂后拆开两步：让大模型先思考策略然后进行任务还是会有优势的。

第二种情况就是AI有特殊的想要使用的策略，不希望完全由大模型自由发挥。此时我们可以通过任务类-策略信息让大模型生成。这是一个重要闭环，如果没有这个闭环，AI将缺少对技能策略的学习能力，每次都只能靠大模型随机生成策略。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业