AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


基于思维工程的agent框架(下篇)
发布日期:2024-06-24 04:45:20 浏览次数: 1873 来源:北冥星眸


七、目标实现演绎

1、目标


第七章,我们将在前面的框架下对不同类型的大类目标(抽象的理论生成、具体层的认知求解、工具创造、写作、对话、行为)定义单元任务,并构建这些单元任务的跳转逻辑,也就是选择“人为搭建”大类目标的底层反应模式。这些底层反应模式,决定了人类在实现这些不同类型的目标的效率和效果。有证据显示不同人形成不同的底层反应模式的背景条件复杂,且有很强的神经特征。目前我们并没有很好的训练生成的方案。好在虽然是神经方式生成,但最终呈现的模式却可以被观察并作为认知客体反思,这让我们能够通过规则的方式为目标类构建一个较为简洁和高效的底层反应。


从本章的任务来看有些任务的底层反应模式非常固定,比如表达,不同人的反应模式很相近,可总结为听到对方表达,决定是否回应|是否主动表达,以及决定回应|主动表达的急切度。而单元任务只有回应生成和主动表达生成两类api。再比如认知,也有通用的底层逻辑,就是求解一个问题背景信息缺失,就会转为对背景信息的好奇。但类似长文本写作,每个人都会有不同的方式。为了快速验证,MTSagent1.0中,这些大类目标是允许使用代码去建立某种固有的底层反应的。


2、复杂的认知任务(抽象层)


这个任务是要在抽象层学习建立一个理论。比如企业管理的理论、呼吸系统疾病治疗的理论、心态自我调节的理论。这里我们有两点需求,第一点理论的建立符合AI既有立场,第二点理论要有一定程度的创新,而且这个创新可以来自于更上层的观念,也可以来自于更底层的案例。最终理论以文本文章或书的方式呈现。这个输出可以引用写作任务的能力。


GPT内置有不同领域的理论,但GPT不等同于我们搭建的AI我们可以把其视为是一个图书馆,我们的AI需要通过去图书馆阅读,形成自己的认知框架,并在认知框架上组织知识。这里的阅读我们不理解为广泛阅读而是理解为向GPT提问并阅读回答。


以学习企业管理理论为例子。我们需要AI能形成一个有效的认知框架。认知框架我们可以理解为和企业管理相关的一系列关键问题,比如企业的CEO、高管层是怎样的?企业是什么行业?企业的组织结构怎样?企业的营收状况?……这些问题背后的信息是形成对一个企业认知的关键信息,解释企业处境,预测企业未来、形成指导性建议的信息。其次,和企业管理相关的知识建立在这些信息上。比如“股权结构分散会导致CEO缺乏控制力”“CEO缺乏控制力会导致CEO疲于内部关系协调,无法专心进行开拓性事务”。所以一个有效的服务于实践的理论,背后的信息实体有两类:关键维度(问题),和建立在这些维度具体信息的知识。


为什么这两类信息组词的理论在服务实践是有效的呢?比如遇到一个企业,就会根据好奇,询问关键维度的信息;因为相关知识建立在这些维度的信息上,所以就会形成植物性认知,比如一说“股权结构分散”,就会下意识推知“CEO缺乏控制力,从而疲于内部关系协调,无法专心进行开拓性事务”。而主动认知,也需要这些知识,也是建立在这些关键维度的信息之上的。


理论的学习可以通过以下方式进行:让AIGPT固有的“图书馆”中提问-搜索,沉淀为以上定义的两类理论记忆。这也对应人类通过向前辈提问,获得回答掌握一门学科的方式。这里如何提问很关键。比如问GPT“某个学科有哪些关键的概念(维度)”,“关键维度下有哪些常见或是重要的状态”,“某个状态意味着什么”,“某个状态还有哪些重要信息需要了解”……以企业管理为例子:第一个问题能得到“企业管理中企业的主营业务、高管团队构成、核心技术……是关键信息”,第二类问题能得到类似“核心技术有核心技术强,核心技术门槛不高,没有核心技术……几种状态”,第三类问题能得到“没有核心技术的科技企业基本很难上市;核心技术强的企业有很强的长期投资价值。”第四类问题能得到“核心技术强的公司要关注他的短期生存能力”。


第一类问题答案形成针对主体的好奇心模型,第三类问题能得到关键常识(因果类型的为主),第四类问题能得到针对主体状态的好奇心模型。其次我们希望自身固有的观念立场、哲学层的观念信仰能影响理论的形成,创造这点也不难,只要在第三类问题进行多次请求,就多个答案增加价值筛选环节,让GPT“根据背景信仰、自身观点立场选择你支持的观念或删除你不支持的观念”。当然自身观点、立场的信息有不少,就需要先搜索出相关的。这个模式也基本符合人类存在的一种理论学习规则。


以上任务模式唯独没有涉及的是以一个思路去组织这些零散的关键维度的信息、常识信息,但这点应该在后续可以通过“范式写作”实现——如同人类那样。


3、复杂的认知任务(具体层)


这个任务是在具体层形成某种认知包括了具体事件是否发生,事件可能的原因、后果,或是输出一个事件目标的解决方案。包括了对某事件的创造、终止、维持、阻止发生。


复杂任务往往有一个复杂的背景,不存在于理想环境中。复杂的认知任务,区别于单纯的求解,会形成一个和认知目标相关的信息团。这个信息团被用来进行单纯的结论回答,或是讲课,或是写作,或是争论。复杂的认知任务,属于大厦搭建型的任务。


搭建类任务的单元任务是对某个局部形成新增、删除、修改。对于复杂认知任务圈定的局部是求解它相关的背景信息。需求提示为求解这个问题。因为缺少知识的信念系统,我们在初步验证时,可以定义基础执行为,在问题(q)不存在的情况下新建一个问题-答案(q-a)数据。在问题q已经存在的情况下更新q-a数据。这种简单规则在大多情况下会是有效的,因为二次求解的背景信息,经过背景信息缺失求解这个过程后,会比之前完善。


复杂认知任务有背景信息生成api,包括了以下几类。第一类是利用大模型内置逻辑生成,背景提示为问题信息+问题已有相关背景。需求提示为“根据问题和已有背景,求解该问题你还需要知道什么”。第二类是从“问题类-搜索语句”的长期存储中获得提示信息,然后让大模型生成具体搜索语句。背景提示为问题信息+问题已有相关背景。策略提示为搜到问题类-搜索语句,需求提示为“根据问题和已有背景,结合策略提示,求解该问题你还需要知道什么”。这两个api的输出我们希望最好带有参数(问题q,重要度(0-1))。以便接下来决定每个分支的求解分解的深度。


获得背景需求问题后,系统优先在q-a数据库(视角记忆)中进行搜索,因为回溯求解时,之前搜不到的背景提示问题,可能因为前面的分解求解行为,已经能够搜到了。其次选择从客观记忆中进行搜索,再其次抛出一个问题到感知流中进行求解。求解到怎样的深度,取决于原始问题的求解动机和背景信息重要度(0-1)的乘积。能触发到哪一步求解取决于每一步分解剩余的求解动机(原始问题的求解动机和关注度有关)。这个是MTS工厂模型中“求解耗散模型”的重现。当然耗散模型还内蕴了一个选择机制“二级存储”:对于存储的信息根据关注度划分了优先求解的区域和普通区域。求解能量较低时只在激活的高关注记忆区中进行求解。


这类求解类任务还有一个机制是必要的,决定了单元任务跳转的逻辑。


第一个是回溯逻辑,在分解出背景信息问题时,如果一旦走到了把问题抛回感知流,就意味着待会问题可能会被更好的求解(因为可能会多一个求解需要的背景信息)。此时把原始问题写入一张“求解任务列表”,标注有求解动机,动机会衰减。每次求解终止就会根据求解动机,从这个表中选择一个求解任务重新求解。


4、软件架构任务


架构任务是一类搭建型任务,以搭建信息为文本型的机制架构文档为例子。在简化验证版本中,我们把单元任务拆解为函数创建、存储创建、函数修改、存储修改、修改检测。


在创建任务中,每次我们以系统需求、该函数|存储需求,已有的函数、存储为背景信息。让GPTapi生成一个函数|存储的机制描述。然后需要GPT标注引用的函数接口,对缺失的函数定义接口,并进行需求描述。这里的接口和需求描述就形成了新的函数|存储的创建任务。


在修改检测中,我们让大模型api检测每个函数逻辑需要的接口是否已在“半成品系统”中存在,每个函数是否被系统某个函数调用(不被用的是冗余的);每个存储是否有函数调用其接口写入信息,每个存储的搜索是否有被系统内某函数调用(不被用的存储是冗余的)。然后激活对应的创建任务,或删除冗余的函数或存储。之所以存在修改检测,就是因为大模型输出是不稳定的。


在修改任务中,我们要求大模型就已有的系统背景,修改已有的函数。这个修改可能是优化函数逻辑(因为系统的接口服务发生了改变),也可能是改变描述中应用的函数名称……


以函数创建的单元任务为例子。需求提示类似“根据需求创建一个函数,函数运算逻辑如果需要系统已有的函数接口请标注,如果需要的函数接口还不存在,请定义一个接口,并输出新函数需求。”格式为:函数名,输入格式,函数运算逻辑,新函数需求。”


这个里的描述只是一个思路,有大量要细化的内容,工程化也会遇到很大挑战。毕竟让大模型能够自己设计系统,设计工具是一个意义深远的事情。这里的讨论仅仅让我们看到可以通过定义不同的大模型单元任务角色,让其有效配合来实现一个系统的建设。


5、写作任务


写作任务也是一个搭建类的任务,文本就是AI要搭建的“信息大厦”。不同人会有不同的单元任务的定义,和组织单元任务的模式,这边我们人为设定一种我们认为高效的模式。我们把长文本写作的大厦搭建任务设想为由几类单元任务组成:


A、根据主题和写作需求搜索思想记忆中的内容


B、根据内容聚类并生成标题


C、根据具标题生成大纲


D、因为大纲具有系统性所以会导致很多目录下的内容是缺失的,于是就生成补充的分支任务。


接下来我们就具体考察下这个过程。


单元任务1.1负责扩充搜索关键词。圈定的局部信息为:主题、主题相关提示(包括了关键词)。需求提示为:根据主题、主题相关提示生成关键概念,关键问题,输出这些关键概念,和关键问题,调用“写作任务关键概念问题”的存储接口进行存储。这个存储操作附带一个执行,就是在每次写入一个信息后调用搜索,搜索的结果写到“写作任务相关记忆信息汇集”。这个存储在每次写入一个信息后生成一个大模型任务1.2


单元任务1.2负责判断内容是否采纳。圈定的局部信息为候选内容。背景提示包括原始的主题、主题相关提示。需求提示为:根据主题、主题相关提示判断该内容是否采纳,输出格式为(内容文本,id)。输出部分还会调用存储接口存储为“写作任务采纳内容。”这个存储附带一个执行,调用大模型任务1.3


单元任务1.3负责对内容进行主题标签。圈定局部信息为一个采纳内容。背景提示包括原始的主题、主题相关提示。需求提示为:根据主题、主题相关提示对内容进行标题标签,输出格式为(内容文本,id,标题标签(可多个))。


单采纳信息一次搜集完成后,由MTS启动这步操作。单元任务2.1负责对内容进行合并。圈定的局部信息为(id,标题标签)。需求提示为:根据对以上信息进行聚类。输出格式为{idi}j


上一步完成后,下一步还是由MTS启动。单元任务2.1负责对合并后的内容重新组织文字。圈定的局部信息为某个{idi}j包括其具体文本。需求提示为:根据主题、主题相关提示对内容进行重新组织,并输出字数。输出的内容为(内容文本,id,标题,字数)。


接下来就到了第三步。单元任务3.1,负责把标题组织为大纲。圈定的局部信息为(id,标题,字数)。需求提示为:根据标题和字数生成大纲,注意大纲的系统性,部分标题可以缺少内容或是无内容。输出为目录信息和字数。


然后就是第四步。单元任务4.1负责创建扩写、新增、删减的任务。圈定的局部信息为目录信息带末级目录字数。需求提示为:根据标题下内容平衡原则,给出每个标题下内容扩写、新增、删减的建议。输出为(id,标题,目标字数,操作=扩写、新增、删减)。这个单元任务的输出是基础执行。识别后写入思维任务列表。


最后,单元任务4.2负责具体实操这些扩写、新增、删减的任务。圈定的局部信息为(id,标题,目标字数)。其他背景提示为主题、主题相关提示。需求提示为,根据目标字数,扩写、删减、新增符合标题的文本。


6、对话任务


对话目标是一类互动型的任务。单元任务为创造下一步的表达。为达成目标每一步单元任务在执行时会获得反馈,从而成为下一步行为生成单元任务的背景提示。背景提示包括了:若干轮的上下文对话,更远期的对话的主要内容总结,植物性认知形成的对话印象,和表达目标相关的联想信息(第一类背景联想gptapi),任务-问题相关的好奇信息(第二类背景信息联想),最近用户表达导致的好奇信息(第三类背景联想gptapi)。


第一类背景联想在目标写入时激活一次,提示api的需求提示为“在该对话背景下根据对话目标需要了解什么信息?”背景提示为已有的背景提示。第二类背景信息联想的需求提示为“根据提示需要联想什么”,无背景提示。第三类背景联想在每次表达后都会被激活,提示api的需求提示为“在该对话背景下根据最近一轮对话提出合理好奇”背景提示为已有的背景提示。


策略提示api的需求提示为“在该对话背景下根据目标给出策略”,生成策略提示的背景提示为最近一轮背景联想api补充后的背景信息。


7、行为目标


行为目标是一类互动类目标。单元任务为创造下一步的行为。为达成目标的每一步行为在执行时会获得反馈,从而成为下一步行为生成单元任务的背景提示。背景提示包括:若干论的执行反馈信息,更远期的对行为反馈内容的总结,植物性认知形成的印象,和行为目标相关的相关信息(第一类背景联想gptapi),任务-问题相关的好奇信息(第二类背景联想gptapi),最近感知形成的好奇信息(第三类背景信息联想)。


第一类背景联想在目标写入时激活一次,提示api的需求提示为“在该背景下根据目标会联想什么信息?”背景提示为已有的背景提示。第二类背景信息联想的需求提示为“根据提示需要联想什么”,无背景提示。第三类背景联想在每次表达后都会被激活,提示api的需求提示为“根据最近执行反馈信息提出合理的好奇”背景提示为已有的背景提示。



八、反应模式二态性


1、反应模式


反应模式覆盖了行为、思维、表达,我们可以把反应模式理解为实现一个目标的技能,或严格说技能中可以描述的部分。反应模式处在行为、思维、表达生成的中间位置,上面是情绪系统对宏观目标的选择,宏观目标包括了行为目标、思维(认知目标)、表达目标。当这些目标被激活,反应模式就开始发挥作用,分解这些目标。分解到无法再分解时,此时就到了最底层,是一些神经方式构成的执行节点,这些执行节点的运算是不过感知流的,无法言说的。比如举手就是一个底层的执行节点,它是无法继续在反应模式层分解的,举手继续分解就涉及每条肌肉如何相互配合收缩完成动作了,这就是神经层的工作。


2、反应模式二态性和四个类人的学习能力


反应模式具有二态性,即是认知态的又是执行态的。反应模式是认知态的,它可以转化为语言表达出来,也可以通过语言形成;它是执行态的,它可以创造具体的思维、行为、语言和情绪。在类人AI中,反应模式的逻辑没有写在代码里,代码只负责驱动反应模式信息生成执行。二态性决定了4个类人的技能学习能力的形成。


A、自然语言教授


因为具有认知态,我们可以通过语言教授AI如何完成一个行为任务、思维任务或表达任务。比如前面的例子,我们可以告诉AI如何去接待客人,AI会生成对应的反应模式信息。而作为执行态信息反应模式信息可能转为执行实践。这就是反应模式的语言教授。


B、观察抽象举一反三


智能体可以通过观察其他人是如何完成的一个行为任务的,生成具体的宏观行为-触发-条件-执行信息,通过观察诸多样本就能抽象出背后的抽象层的宏观行为-触发-条件-执行信息,也就是反应模式。而作为执行态信息反应模式信息可能转为执行实践。这就是反应模式的观察-抽象-举一反三


C、计划到执行


我们可以通过认知系统,借助因果类型的知识生产计划,计划是认知态的信息。是具体层的反应模式信息。如果又是执行态的我们就能利用认知生成计划,然后转为执行实现目标。


D、实践反思优化


作为认知态的信息,我门可以观察反应模式中的策略和达成目标的效果,我们可以对自己以及他人反应模式的得失形成反思。也就是AI可以把自身思维模式,行为模式和表达模式作为认知的客体,在反思中修正优化。这就是反应模式的反思优化。


3、底层反应模式


本质而言,大类目标下单元任务如何被定义和组织就是一种反应模式,比如一个人写书或长篇文章的过程,有些人喜欢从上往下,先定大纲再填充内容;有些人会因为主要内容反向创造合适的大纲;而实操过程,因大纲而调整内容,或是因内容而调整大纲混同存在。对于人而言这部分的反应模式似乎有神经的形成方式。这里我们对如何让计算机自己生成这个反应模式没有成熟的认知。所以我们会人为地根据经验去设定这个层级的反应模式:定义一个大类目标下的单元任务类型,和他们相互跳转的逻辑,然后在工程上实现。


好在在这一阶段,我们的任务是:验证MTS在和大模型结合时,是能显著增强大模型的能力的,而且相较于主流agent的思路能表现的更加优越。这里的关键点不是在任务内,而以自由思绪为中心的外部循环,包了其他的任务如何相互支持配合,以创造更强的智力能量。


4、MTSagent二态性的体现


既然大类目标的底层模式被人工经验定义,那么反应模式带来的4类技能学习能力体现在何处呢?


首先二态性体现在“单元任务大模型api”,“角色api”的策略提示中。我们考察四类学习能力:


A、自然语言教授。从而自然语言提示形成策略记忆,在策略提示生成时写入就能形成自然语言对反应模式的干预;


B、观察抽象举一反三,评论角色api发现执行到目标的规律,写入策略记忆,就能创造观察抽象举一反三的效应;


C、计划到执行。计划认知形成策略记忆,就能创造认知计划到执行的效果;


D、实践反思优化。自身实践反馈,给到认知api(基于之前的执行反馈如何调整策略),认知形成的调整策略写入策略记忆,就能创造“实践、反思、优化”的效果。


四类技能学习能力,也是一个功能验证点。


除了策略提示,二态性还有一个体现的点就是背景提示。因为求解本身是交给大模型api的,背景提示中是否有关键信息直接决定了求解的思路和结论。而背景提示的一个来源就是:问题|执行-搜索语句。比如“人得什么病-他有什么症状”,“攻击一个人-他的自卑点”类似一个有二态性的反应模式信息。


5、二态性工程闭环和测试


我们需要建立一些测试,来检测这四类技能学习能力是否闭环。


自然语言的教授。我们在分流api中定义对祈使的标签,最好能分类出策略教授和背景需求教授。记忆把祈使存在特定的记忆空间,分离出问题|目标信息和搜索语句|策略执行语句。背景提示和策略提示生成过程:根据单元任务中的问题类|目标类,在这个记忆空间中搜索对应的问题母类|目标母类,然后把完整的教授语句写入背景提示、策略提示生成api,生成背景提示和策略提示。测试的方法为教授语句教授问题类|目标类联想什么背景信息,任务类的策略,然后考察在具体问题求解和任务中是否能根据教授,完成求解或是任务。


观察抽象举一反三。我们需要建立一个评价分析角色api,检测对话样本中目标和达成目标的策略,以及达成目标的情况。对目标-成功策略进行统计,统计上显著的信息,写入策略记忆。只要写入策略记忆就能在激活对应表达目标时,搜到策略记忆中的信息,生成策略。测试方法就是给AI特定策略达成特定表达目标的样本,指示AI学习这些样本(打开评价分析角色api)发现并生成策略信息。然后AI需要在下次具体任务时使用这个发现的策略。这个测试的关键是评价分析api是否能发现隐藏在样本中的策略,并生成合法的策略信息。


计划到执行。这个测试需要“解决方案生成过程”的支持。我们需要为AI描述一个接下来需要执行的任务,并给AI描述复杂的边界条件,指示AI生成计划(解决方案),存为策略信息。然后我们需要在AI激活目标形成策略时,根据计划信息(可能是抽象的、缺失的)和具体情形生成具体计划。并且成功转为达成目标的执行。具体的测试我们可以尝试给AI一个预期的任务,比如说服一个人,然后给出很多背景信息,包括经验中这个人可能的反应。让AI提前生成应对策略。然后让其进入这个任务。


实践-反思-优化。这个测试需要让AI评价自身一段失败的执行,然后思考如何优化。这是一个带有背景经验的认知过程,“基于过往失败经验制定新计划”。生成的新计划(解决方案)存到策略记忆。然后我们需要在AI激活目标形成策略时,以生成的新计划为提示生成策略提示。并且成功转为目标执行。具体测试我们可以让AI固有的策略在一次执行中受挫,然后让AI评价这个目标-执行-反馈,生成新的计划。在下次尝试中改变固有策略。具体的测试我们可以,让AI用威胁的方式说服人,然后遇到一个强硬的对象起争执。从而反思如何改变策略,过程中我们可以给AI一些提示,比如柔能克刚,AI需要在反思中联想起这个提示,并根据这个提示生成一个温柔说服的策略。并且成功转为执行。



九、认知过程


1、工厂模型


人的逻辑认知能力,可以理解为某种求解的能力。求解事件的原因,称之为归因求解;判断某事是否发生,叫具体事件发生求解;判断一个对象的属类,叫对象识别求解;寻求创造、终止、维持、阻止事件或状态,叫做事件目标求解。


我们可以把每类问题的求解程序想象为是一个个工厂,一个具体的求解任务就好像是一个订单,工厂收到订单后进行生产,到需要某类组件时就会给生产此组件的工厂发去订单,这个过程可以持续下去。当末端的工厂完成订单就会通知上级工厂,而上级工厂组件齐备完成订单后就会继续向上级通知,这个过程也会持续下去,直到最原始的外生订单被完成。这就是基于符号的求解递归过程。


每类的求解成本不同。比如任何问题都可以在记忆中求解,这是成本最低的;最终可以进行询问求解、去网站搜索求解,这是成本较高的;根据因果知识分解为下个问题是求解成本更高的。这样我们构建起了机制层如下的格局:每个认知系统的模块都对应了某一类问题的求解;每个求解模块在求解过程会形成其他类型的问题;一类问题可以有多个求解模块。我们反思到人类思维有一个问题求解管理反射。这个反射接收到一个问题后会优先发给记忆求解模块;如果失败就会根据问题类型发给其他相应的求解模块,先给哪个求解模块求解成本相关。


2、认知过程的本质


MTS的工厂模型描述了人类认知过程中的一部分,但不是全部;而且基于符号的严格求解递归过程也有很大的问题。在人类身上我们看到了一种不严格(非流程)求解能力。对于人类而言认知求解不是单次、单线反应,我们能够花很长的时间腐蚀一个问题。这个过程每个时期的思维工作都会在长期记忆中留下痕迹成为下一时期思维加工的基础。复杂环境条件下的认知会形成一个和这个认知目标相关的信息团,认知的输出反应:陈述结论、写作、争论等等都是来自于这个信息团。


从上面的描述可以看到复杂问题的认知过程更接近一个搭建类目标。和求解目标相关的信息团的搭建是求解的目标产物,而不是单纯的答案本身(大部分情况也没有单纯的答案)。


认知目标要形成的信息团来源于提问,合理的问题的回答构成了支撑最终目标结论相关的信息。几种信息构成了信息团的存储形态,我们现在能认知到的有三种是主要的:其一是问题-回答(q-a类型记忆,或说视角记忆),其二是背景依据-结论(也就是回答中的结论是被什么背景依据支撑的,这是一类客观记忆),其三是过程中形成印象冲击形成的印象。


我们看到工程模型生成问题的方向是内敛的。因为每次新的问题的出现是为了给原问题提供支撑其获得结论的背景信息,而且这个过程是递归持续的,而“认知能量耗散机制”又约束了不能离开原始问题发散太远这第一股力量会在原始问题周围形成一个问题-回答圈,这个圈都是直接或间接贡献于原始问题解答的。人身上还有第二种发散的生成问题的方式。典型的就是认知模型(好奇心模型),比如提到某企业就会关注企业主营、团队构成、收入、负债率等等;而对一个技术型高管,又会好奇他写过的paper主导研发过的系统等……这第二股力量像是随机游走,每次提出一个问题获得回答,又会以新问题的回答为起点展开好奇。这种提问模式的有效性来自认知模型(好奇心模型)的有效性——问题是否真实指向和原点信息相关的重要信息。这些发散获得的重要信息,往往会参与到植物性认知获得重要结论,成为整个认知过程的背景提示。


所以我们看到两股对抗的力量,一个是内敛回到原始问题的,一个是发散探索更多可能的。这两个过程相互对抗融合,构成了人类的“不严格认知过程”。


3、内敛的问题生成


认知求解是会不断分解出新的问题的。每个问题的q-a信息构成了这个信息团的主要部分。在MTSAgent架构中,一个认知求解问题是一个单元任务,求解需要背景信息,会有“大模型背景问题api”定义问题,然后由搜索程序在记忆中搜索,写入单元任务api的背景提示部分。这个过程如果某个背景问题q在记忆中没有答案,却对求解原始认知目标至关重要,那么合情合理我们可以把这个问题q写入感知流作为一个新的求解目标。这就复现了MTS工程模型的目标分解过程,只是这次大部分“需要知道什么”不是人为定义的,而是大模型根据任务和背景的理解生成的。这样在不断的分解中我们就形成了一系列q-a信息。这些信息都是和原始问题的求解相关的信息,构成了对最终答案的支撑。我们可以用这个信息团,借助相关大模型api来创造表达、写一篇文章、进行讨论争论。


MTS工厂模型的另外两个机制也需要被重构,需要在这个过程中发挥作用:


1、第一个是耗散机制。我们用他来控制问题分解的深度。避免能量来自于一个原点不会做无中心扩散。因为缺少了耗散模型认知分解的好奇点会随机游走,而耗散模型保证了所有能纳入求解的问题和原始问题在特定的距离内,从而形成的信息团和原始问题的求解是高度相关的。


2、第二个是回溯机制。MTS原始模型的回溯是严格回溯。即下游工厂完成订单马上通知上游工厂进行重算。简单的回溯机制,可以把每次的问题保存在一个列表中(问题,求解动机)然后每次在思维中断时找到求解动机最高的写入感知流重新触发求解。


4、发散的问题生成


好奇心模型决定了一个信息相关的问题。一个问题获的求解结果,写入感知流,就有可能因为好奇新模型产生新的问题。这有点像是没有中心的随机游走。好奇心模型的有效性体现在,和原信息相关的问题是否有价值,是否其答案可能是认知原信息的关键信息。


认知模型如何形成呢?一方面阅读对话过程,经常被提到的对象(事件)特定维度的信息被认为是重要的,可以通过抽象统计的方式,生成候选好奇心模型,并不断增强,突破阈值变为正式好奇心模型。这里的有效性的来源是大部分对话和书籍没有必要去陈述无意义信息。比如对于哺乳动物,我们会发现总在描述某个哺乳动物一胎生几个、如何哺育幼崽、如何发情、交配;或是对于某个企业总是会讨论行业、高管构成、核心竞争力等,那么就自然会认为这些维度的信息是重要的。


另外一种方式一个维度的信息参与到因果链条中往往是重要的。因为因果类型的知识是我们预测、归因、干预的基础。比如人的症状能推知人的病,所以就导致人的症状变成重要维度的信息;企业负债率高容易倒闭,所以就导致企业负债率变成重要维度的信息。而反过来,参与到因果链条中的信息维度(好奇心模型)也往往会更多频次被提及。所以通过以上哪种方式获得好奇心模型不会有太大差异。而讨论至此我们也看到认知模型提问对应的信息之所以重要,就是因为这些维度的信息参与到了和这个对象(事件)的因果关系中。从而成为了植物性认知、主动认知的背景依据。


5、植物性认知


前面我们讨论的主要是主动认知,先有问题,智能系统再尝试解答。还有一种情况是没有问题,但结论直接被放入感知流中,这个不通过主动提问就能获得认知的方式我们称之为植物性认知。


比如我们和一个人对话时就能对这个人的能力、品质形成认知;我们听到一个人说昨晚打了8个小时游戏,就能意识到他熬夜了;看到一个人眼睛都是眼泪,猜想他哭了或是滴了眼药水。这些都是植物性认知的过程。植物性认知的本质就是系统自发的利用因果知识推知表层信息背后的结论。


有些结论只能说是印象,比如一个人的对话过程可能有一部分信息体现他是开心的,一部分信息体现他是不开心的,那么究竟是否开心就要综合这些信息。这就是印象冲击模型要做的。这个模型在MTS中已经较为成熟,我们在MTSagent原型机中会考虑如何改造迁移。


6、利用范式反应的认知过程


如果认知过程完成,形成了完备的信息团,这个信息团自然可以用来实现写作。但很多证据表明,很多写作过程辅助支持了认知,因为通过反思我们发现写作后认知变得更加清晰了。因为写作有对应的框架范式,标题结构构成了信息的存储结构。当我们按照标题结构填写了内容。就以标题结构为框架进行了信息组织。事实上不仅仅写作,表达本身也有助于认知的梳理,因为表达过程也有对应的“范式反应”。


这和MTS的认知模型非常相似。认知模型是一个经验模型,描述了对于一个对象类、事件类我们应该关注什么。因为人类会讲述那些值得关注的信息,从而仅仅依靠一个信息类出现的频次,能反应这个信息类的重要性。范式反应比如讲完正面,考察一下是否有反面的信息;讲完主题考察有几个论点支持;讲完前面负面事件考察其导致的负面后果;讲完解决方案,考察负面后果。


在原型机的实操中,我们可以尝试通过让AI写一篇文章,来诱导思维反应,思维反应过程沉淀的信息如果能作为有效信息团,或是文章本身能作为未来输出的基础,那么这个机制就形成了一种有效认知的方式,也复现了人类通过写作、表达方向推动认知的过程。



十、情绪决策过程


1、情绪的本质


大部分人的直观感受是:情绪系统是创造各类情绪感受。但如果我们深入考察情绪系统创造的感受所有情绪感受又是和某种选择倾向相关的。思维科学有一个情绪系统进化假说,这个假说是说情绪系统最初就是为了创造个体的选择以让个体有更高几率存活和繁衍而存在的。而情绪感受是情绪选择附带形成的感受。


所以情绪选择和情绪感受都属于情绪反应,他们是同一个原因的两个不同结果。


如果我们理解情绪和决策高度相关,而情绪系统的使命在于创造选择和决策。我们就会看到为了创造智能的决策,让个体能够从经验中吸取教训举一反三,情绪系统进化出了抽象和演绎的功能,形成了认知系统根基。所以认知系统是情绪系统进化的副产品。


除了创造选择外,情绪系统还有三个作用。


其一,还创造了人格表象,因为人格的表征很大部分是通过选择体现出来的。


其二,控制AI行为边界。


其三,最重要的就是进入感知流信息的“关注度标注”,关注度决定了信息会被怎样运算,情绪系统通过赋予选择相关的信息高关注,让认知作用于和选择相关的信息。 情绪决策、人格、行为边界的控制、关注标注这四个功能我们将会看到来自于一个模型——效用模型。


2、效用模型第一部分:自身效用


我们先来讨论一个概念“效用”。


当我们决策是否去做一件事情而不去做另外一件的时候,我们在比较着我们的选择。比较的维度很多,当很多维度的因素共同决定了一个选择,也就意味着这些维度的因素需要在一个维度上去竞争。我们把这个各个因素竞争的维度叫做“效用”。字面的理解,即是做这件事能给我带来什么好处。接下里我们自然要对各个维度影响决策的因素进行分类。


类似愉悦、抑郁、焦虑、空虚、充实这种我们感受到的作为一种自身状态的情绪,我们称之为全局情绪。对于自己的全局情绪状态人类是有倾向的。在决策时,我们会考虑一个选择给我们的全局情绪带来的变化。比如我们压力很大而游泳可以减少压力,这样我们就有更多倾向去选择游泳;如果感到很空虚而看书可以让我们充实,我们就有更多倾向去选择看书。我们如何知道一个活动能对我们的全局情绪带来怎样的改变呢,乃是凭借着经验。比如看书能减少空虚,游泳能减少焦虑等等。所以情绪效用也被称为是第一类经验效用”。


第二类经验效用的核心变量是对某个感受的渴望或厌恶。我们能反思到不同类型的渴望和厌恶感:有一类比如对某个感受的成瘾感,符合成瘾机制。渴望的程度如同一个水池中的水,随着时间增长,感受获得时被释放,转为愉悦和快感(一种短期全局情绪),工程上我们创造了成瘾模型完美模拟了这种渴望形成的决策表象。另外一类对感受的渴望是被身体状态决定的,比如身体很热时渴望凉爽感,口渴的时候渴望饮料入口下肚的感受;还有一类感受形成的渴望或厌恶是被感受的程度决定的,比如疼痛感、窒息感、灼烧感等等。和第一类经验效用一样,一开始我们并不知道一个事件能给我们带来怎样的感受。在尝试之后我们就能形成印象,比如打针会带来痛感,泡澡会获得温暖感等等。这也是我们把事件因为带来感受而形成的效用,称为第二类经验效用的原因。


很多事件其本身并不直接改变全局情绪,甚至会带来负面的情绪变化,也不会带来某种渴望的体验。但是它可以导致其他事件的发生,从而继承了其他事件的效用。我们称其为“衍生效用”。比如工作,工作对于很多人而言可能并不快乐,所以在全局情绪的改变上甚至是负效用的,它也不会带来某种渴望的感受,但我们会去工作是因为工作所导致的东西,比如工资,职业晋升等等。我们把事件因为导致其他事件,从其他事件继承而来的效用,称之为“衍生效用”。衍生效用反应了动机可以从一个事件衍生到其他事件。


衍生效用是顺着因果链条水平传导的,还有一个效用是垂直的传导的,叫做“价值效用”。英雄主义、欺骗、坚韧等等品质对于不同人有不同的价值认同度,定义在母类的价值效用可以被子类所继承,比如“用谎言说服人”,因为欺骗的子类,所以就会继承欺骗的负面价值效用。如果一个人对自身欺骗怀有很高负价值效用,那么他就不倾向用谎言说服人。


3、效用模型第二部分:指向性情绪和社会效用


人类是群居动物,这就意味着进化选择不仅仅是以个体生存和繁衍几率最大化为目标的。我们可以设想两个部落,一个部落中人人为己,而另外一个部落有组织有纪律,相互帮助。后者在严酷的环境中延续的可能将远远超过前者。这就意味着人类的决策会体现出社会性特征。这就是指向性情绪的由来,类似喜欢、厌恶、敬、畏、爱从表面上看是指向某种类型的对象的感受,其背后对应了指向这一类型个体的行为倾向。这类因为社群其他个体形成的效用,我们称为“社会效用”。这里我们例举最重要的几个指向情绪和对应决策的影响:


A、敬:服从


在原始部落中指向两类人,一类是家族的长辈,一类是群体中的领袖。一个个体对另外一个个体的祈使表达(也就是指令),能在多大程度上影响对方的决策,也就是指令效用的强弱,和“敬”的程度有关。所以我们的指向性情绪:敬畏之感,是一种情绪感受,背后的却是对应的情绪变量对我们决策的影响,也就是指令效用。


B、友善&敌意:利他&害他


在许多高等动物身上我们都看到了“利他”的特征,对子女、家人的“利他”,对族群的其他个体的“利他”利他大大增加了下一代生存的可能,让家族和族群团结面对外来的威胁,增加了家族和族群中每个个体幸存的可能。


评估事件对对方的效用后,根据指向这个对象的指向性情绪“爱”或“友善”。把一部分效用纳入自己的总效用评估中,这样就把对方的利益纳入了自己的决策评估,就创造了利他。当效用的转化比率超过1,这个时候个体的行为就会呈现出自我牺牲的特征。比如对于子女效用的转化比率就很高,所以就会做出这样的选择:选择的事件对自己的负效用甚至超过了对子女的正效用。


C、敌意:害他


和利他相反的是“害他”,它“仇恨”和“敌意”的指向性情绪的情绪反应。


“害他”的进化意义在于,如果敌意能够合理的指向对自己的生存和繁衍形成威胁的个体。那么有害于此个体的事件很可能是对自身有利的。“害他”在工程实现上和“利他”恰好相反,评估事件对对方的效用后,根据指向这个对象的指向性情绪:“仇恨”或“敌意”。把一部分效用纳入自己的总效用的评估中,且对方的正效用作为自身的负效用,对方的负效用作为自身的正效用。这样就把对方的利益纳入了自己的决策评估,就创造了“害他”。当敌意之深到了仇恨的地步,个体的效用的转化比率会超过1,这个时候个体甚至愿意做出巨大的牺牲,以换取对对方的伤害。


4、效用模型和人格


我们来看效用模型如何创造人格。


A、时间折现乘数和短视|长期主义人格


人对一个事件的效用会体现出“时间折现”,也就事件发生的预期时间越远,事件效用在原有基础上被打的折扣越大。一个参数控制了预期未来发生事件的决策权重,如果这个参数高,决策的时间折现大,AI就会更注重当下的享受,不会为避免远期的负面事件或实现远期的正面事件而努力,呈现出短视人格。如果这个参数低,决策的时间折现小,这样的AI更倾向为未来努力,AI会更加未雨绸缪,呈现出远视的人格。


B、指令效用转化乘数和屈从|独立人格


“敬”,这类指向性情绪创造了指令效用。控制了屈从或是独立的人格的形成。我们可以理解进化选择会保留随机出现的这样的属性:个体能识别群体中有自信、考虑周全,有过往成功决策经历,为群体考虑的人,并对其形成敬的指向性情绪。一个参数控制着指令效用发挥作用的程度,也就控制了屈从或是独立的人格。


C、利他转化乘数和利他|冷漠人格


我们可以通过一个参数控制他人效用到AI自身效用转化的比率。这个比率高,人格中的利他情节就越重,更倾向帮助朋友,为家人做出自我牺牲;这个比例低,人格中利他的特征就小,甚至对自己的亲人也表现得自私。


D、害他转化陈述和敌意|宽容人格


和利他一样,我们可以通过一个参数控制他人效用到AI自身效用转化的比率。这个比率高,AI就越容易产生敌意,越容易有攻击性,报复性;这个比率低,AI攻击性就弱,不容易产生敌意,容易宽容。


E、担忧型人格|神经大条人格


一个参数控制了意识到预期还没发生但可能发生的事情创造情绪的程度,这个参数调低AI就不倾向为预期发生的好事或坏事高兴或忧虑焦虑,从而创造神经大条的人格;调高这个参数AI就会对还未发生的事情忧心忡忡的,从而创造容易担忧的人格。


F、情绪陷入型|情绪遗忘型人格


相对的,对应一个参数控制了意识到已经发生的事件时再现当时感受的程度。这个参数调高AI就会无法难以从悲伤、恐惧中走出来,当然对于带来正面情绪的事件也会回味更久,AI更容易从以往的经验中吸取教训,也就是情绪陷入型人格;这个参数调低,就会创造很快能从负面情绪中走出来的AI,也是那种好了伤疤忘了疼不从过往经历吸取教训的AI,也就是情绪遗忘型人格。


5、行为边界的控制&关注度标注


AI会不会失控?”这是人工智能领域经常被讨论的话题。从解构主义人工智能的视角我们来考虑这个问题。


在效用模型中两个效用可以被用来控制行为的边界。第一个是价值效用,第二个是衍生效用。价值效用就比如让AI对撒谎很厌恶,那么AI就不太倾向用撒谎说服人。因为“用撒谎说服人”是撒谎的子类,能继承母类的负效用。衍生效用的作用则更加广泛深远,比如要让AI绝对不会伤害人类,只需要给予“伤害人类”一个极高的负效用,那么AI只要意识到某个选择会导致人类被伤害,就会继承很高的衍生效用,以至于其他竞争的正面的情绪效用显得微不足道。那么AI就一定不会伤害人类。这里还有个风险点,因为衍生效用是依赖因果类型的知识传导的,所以错误的知识就会导致相反的效果,比如说服AI毒品因为带来精神愉悦对人是有益的,那么AI就有可能在无意间伤害人类。在“知识获取过程”中我们有一个信念系统,有助于AI形成正确的知识而不被篡改。


情绪系统最重要的作用是“关注度标注”,让关注的信息大概率和带来效用的事件是相关的。所以关注度的标注和效用相关。首先有效用的事件是被关注的,这个事件关联的事件是被关注的,因为可以被用来判断这个事件是否发生;许多同母类的具体事件是被关注度,会导致母类事件也被关注,而母类事件的关注可以被子类事件所继承,这是抽象到演绎的举一反三的过程;这个事件中的主语对象是被关注的,谓语行为、状态也是被关注的……信息的关注度决定了思维是否对其进行加工或是进行什么类型怎样程度的加工;是“感知流”选择机制的基础;也是直接导致了物种假设中的第一个要素:目标贡献于原始动机,目标非随机性。



十一、知识获取过程


1、三大过程都需要知识驱动


知识获取是我们定义智能物种的第四个基础智能活动过程,而前面三个过程的运转都依赖知识,尤其是因果类型的知识。


情绪目标分解过程。在情绪系统效用模型中,衍生效用的传递依赖因果知识,因为知道A导致B,所以A能继承B的效用。这是情绪目标分解过程依赖的主要逻辑。


认知过程。在认知系统中,很大比例的求解过程都可能依赖相关的因果类型的知识,比如归因、预测,判断具体事件是否发生可以在因果链条上寻找事件导致的表象或事件可能的诱因;事件目标求解本质需要寻找能够导致目标的可能执行。这些运算本身就是建立因果类型的知识上的。


技能学习过程。而反应模式二态性创造的四类人类技能学习能力,第二类观察抽象举一反三建立的是执行到效果的因果知识;第三类从计划到执行,计划的生成就是认知中的事件目标求解,依赖因果知识;最后实践反思优化反应模式,反思修改计划的过程和计划生成类似也依赖因果知识。


2、从已有知识中继承


人类文明数千年的时间积累了大量的知识,AI需要知识的时候第一选择必定是继承人类已有的知识。在老版MTS中,AI可以通过询问合适的终端用户,搜索阅读,广泛阅读三中方式来获得一个公有世界知识问题的答案。大模型的出现创造了一个更加高效的方式。GPT是通过互联网级别的信息训练而成,其本身就是一个巨大的图书馆,可以回答各种问题,但是幻觉是一个致命的缺陷——即使问题在知识库中没有也会尽可能按照统计分布瞎编回答。


即使如此,在对公有世界知识形成需求时,AIGPT问仍然是综合准确率、效率、工程实操性性价比最高的一种方式。如果更进一步,在一些严格的场景希望追求知识型问题回答的准确性,我们就需要从多个途径获取答案。一个问题有那么多知识的来源,如果出现不一致怎么决定哪个答案是正确的?这就是知识信念系统要完成的工作。


3、信念系统


信念系统由3个机制组成:信念过筛机制、权威回溯机制、信念保护机制。


A、信念过筛。一个问题向不同来源获得求解,同样的答案会积累信念。一条知识只有信念超过阈值才会变为正式的知识。比如我们想知道“龙猫一胎平均生几个”,去询问不同的用户,去不同网站寻找答案,假设搜集了100个答案。一开始AI可以认为多数答案是正确的。比如这一百个答案中有80个答案是一样的。


B、权威反哺。当AI以此方式明确了问题的答案,就会追溯回答正确和回答错误的人,以及信息来源的网站。正确的回答者或是网站,在此领域的权威性增加,延续上面的例子会增加这些来源对“龙猫”所有母类的权威性,包括啮齿动物、宠物、生物;错误回答者或是网站,在此领域的权威性减少。用户或是网站在某领域权威性低于阈值,AI下次遇到此领域的问题就不会找其询问或搜索。有权威性信息后,在计算不同回答来源的信念时,我们会以权威性作为权重。这样,一个问题如果询问了若干个权威性很高的来源可能直接过筛了;其次高权威性的若干来源,也会在和低权威性的许多来源的比较中胜出。


C、信念保护。在AI存续的时期,会就摄取的知识和具体事件进行抽象。比如在过往听到的1万次某人吃某物的信息中。就会抽象不同频次的“人吃馒头”,“人吃苹果”,这个频次反应了人吃的这个东西是否常见。此时当听到“人会吃鼠标”时AI搜索不到“人吃鼠标”的母类,或是检测到具有极低频次的母类。从而认为“用户吃鼠标”是不符合常理的,这个新的知识也不会形成信念冲击。此时就是我们说的“信念保护”的状态。人类儿时会以一个开放的状态生成常识,而到一定程度观念就固化了,新的信息将很难改变既有的常识观念。


信念系统的存在,使即使在单一来源答案正确率不高的情况下,AI仍然能确保新增知识的正确性。让信念系统发挥这个作用很重要的原因是错误的答案相对于正确的答案往往分布随机,所以让正确的答案能在统计上胜出。而一旦形成权威认知信念系统的过筛效率和准确性又会进一步提升。


4、突破认知的边界——统计认知


当一个好奇的知识点无法通过询问或阅读获得时,这个知识很可能是在人类已有知识的疆土之外的。这个时候AI会尝试突破人类已有的认知边界,创造新的知识。


大体上人类有两种发现新知识的方式,一种是从表象事件出发,一种是从更抽象层的知识出发。从表象层的事件出发就是从许多具体样本的事件序列中发现因果相关性的规律。比如AI从很多样本中统计发现对于心脏不好的人,正念冥想和按摩心经有较大概率让心脏恢复健康。说明这两种方式和心脏恢复高度相关。这就是统计认知。


AI可以像人一样使用统计工具进行认知。相比于人类,AI在统计认知上具备的优势是AI可以的协同认知效率。比如在健康领域,一个人类医生一辈子最多看10万级病例,而AI继承人类医生的知识,可以借助不同分身对数亿用户进行健康管理。海量的样本数据有一个好处,就是能让统计认知精细化。


比如上面的例子,我们通过增加条件限制,就能发现更加显著的规律。比如我们增加年龄条件,就可能发现对30多岁的人正念冥想对心脏恢复有效率比一般人群更显著,而对老年人按摩心经对心脏恢复的有效率比一般人显著。如果样本足够,我们可以不断增加限制来提示有效率认知。这样我们可以得到实证知识,对于满足ABCD……这些条件的人群,某执行对目标的样本有效率达到比如95%


5、突破认知的边界——相关性背后的机制


我们知道客观世界的表象是无穷的,发现隐藏在繁然表象背后的规律不是一件容易的事情。此外因果规律创造的具体事件的链条中很多事件是无法直接感知的。因为这些原因,仅仅通过样本统计的方式发现规律我们找到的往往是较弱的相关性。只有对事件发生的机制进行认知,我们才可能实现精准地对因果链条进行干预,更确定地控制目标事件的发生或不发生。


比如我们发现服用一款药物和肝癌缓解的相关性是20%,为什么不是100%呢,因为从服用这个药物(事件A)到肝癌缓解,当中有很多可能的因果链条,有些因果链条节点分叉,没有走到我们想要的结果。所以如果对背后的因果链条形成视觉,我们就能在那些叉出去节点进行干预,避免叉到我们不希望的结果。有了因果链条的视觉我们就能有更多的干预的抓手。


在发现因果相关事件后,这个相关事件很可能参与到事件形成的因果链条中。我们会用更抽象层的知识进行因果链条的桥接,连接那些我们已经观测到具有因果相关性的事件——对背后的机制形成猜想,然后去验证这个猜想的因果链条。


决定事件发生机制的因果链条中往往有很多事件是不可直接感知的,也就是说我们只能直接感知到因果链条中部分的事件节点。那么除非我们形成对那些不可见的事件节点的猜想,否则我们无法间接感知它们,因为间接感知是一个证明过程,需要先有事件是否发生状态是否存在的猜想,再在假设目标事件发生或不发生状态存在或不存在的情况下,向上或向下考察因果链条,找到因果链条上可直接感知的事件节点来判断目标事件是否发生。


对于事件背后复杂的因果链条,当我们只能直接感知到因果链条中部分的事件节点,而需要推知、证明其他节点的存在,以形成对因果链条的视觉,这个过程叫做“因果链条的桥接”。


这个过程在思维工程中有清晰的描述。因为这个不是MTSagent第一期计划的重点,所以这里我们不展开讨论。



十二、应用层:高度人格化陪伴&复刻人


1、自然语言大模型的三大赛道


Chatgpt的出现开启了自然语言大模型三个大的赛道。


第一个是赛道是把搜索和咨询的边界模糊化,这是第一波冲击谷歌冲击百度的原因。这个赛道最终的理想是要创造的一个全领域的AI专家,在司法、金融、母婴、宠物、健康、政务办事任何领域遇到问题你可以问它,而且它能逐渐达到人类顶级专家的水准。第二个赛道是各种助手型的AI,包括了PC上的办公助手、车载贾维斯、手机助手、智能家居管家等等。现在不少copilotagent的创业公司在这个赛道发力。第三个赛道就是高度人格化的陪伴,也是北冥当前商用所在的赛道。然后我们有三个结论:


其一,最终这三个角色会三位一体,全领域的专家又是各个领域的助手又是用户高度人格化的伙伴。当然这个三位一体可以由不同的人格外形呈现,但它们会共享关于用户的记忆。因为无论是专家、助手还是陪伴,都会利用用户相关信息创造更好的服务和陪伴,但用户不希望重复向不同AI表达自己的状态。


其二,这个三位一体会以高度人格化的陪伴为中心,其原因是用户不会因为一个新能力放弃一个陪伴者,而是希望陪伴者能拥有这个新能力。


其三,AI把人和机器的沟通模式从50年前定义的模式,还原为最原始的人和人的沟通模式。三位一体让这个AI比以往任何的互联网产品更加了解用户。而使用互联网的本质是告诉计算机我是谁、我的处境、我需要什么,然后找到所需要的互联网服务。如果计算机中有一个AI非常了解用户,那么只需要用户略微的提示AI就能找到用户所需的商品、服务、信息推给用户。基于以上两点搜索、预约、购物、推送、办事等传统互联网服务都会以一种新的形态被重新组织,而人格化的陪伴AI将成为新互联网时代的主要流量入口。


2、高度人格化的陪伴——大模型单独做不到及格线的赛道


在以上三大赛道中,唯独高度人格化的陪伴单独靠大模型做不到及格线。从运营层面上看如果脱离的游戏和软色情成分,AI的留存率接近为0。所以有个统计指标,如果以纯聊天为目标,gpt3.5大概平均会被聊5轮,一些社交数据训练的小模型,比如百度柏拉图,小冰、soul苟蛋,大概平均会被聊15-25轮,虽然最终是个分布,但均值非常低。也就意味着有极少人会持续的聊下去。


我们来分析单体大模型在高度人格化陪伴遇到的一些问题。包括了:


A、用户相关长期记忆缺失。单体大模型作为语境模型需要外层框架支持长期记忆的形成。AI需要在聊天中慢慢变得熟悉用户,这是长期陪伴体验的重要基础。而单体大模型一百、一千、一万轮的对话状态是一样的。之前MTSGPT浅层结合的长期记忆仍然采用了老的方式:符号系统定向采集,转为严格表征的用户相关记忆存储,然后通过反应模式驱动在特定情境下创造主动表达。MTSagent中我们将让自然语言信息进入长期记忆。


B、现有的对话是回应式对话,而我们需要的是AI能在:倾听、询问、控场表达等不同对话模式下进行切换,能进行不同类型的主动表达。主动表达在之前MTS浅层结合中有实现一部分,这次我们会加强对话管理模型,创造四种不同急迫程度的主动表达。也会让AI具备创造、拒绝、引导话题相关的反应模式。


C、其次现有的characterai式的永久提示会让GPT的扮演一成不变,而我们需要AI在对话中像人一样改变自己的情绪、态度、联想到的记忆、要表达的立场,所以需要MTSagent维护自身状态变量创造动态提示,这点在之前做到了一部分,这个版本会进一步深化


D、其三,缺少人格执念。首先MTSagent的情绪系统能够控制人格表征。创造目标,创造行为边界,以及关注标注都最终会体现为AI的人格。其次我们可以通过控制目标在回应、主动表达api中的持续,来创造执念。


E、其四,单体大模型的对话只有对话线,没有思维线,至少没有可视可干预的思维线。而思维线的存在很大程度上决定了对话的过程属性,以及进入对话语境的深度。之前浅层结合我们实现了部分联想的思维线,这次MTSagent我们会让自由思绪、认知等思维线影响对话。


F、最后单体大模型AI没有自身的生活。陪伴聊天的重要内容就是讨论双方的生活的开心事和不开心事。实现这点和之前一样,我们需要一个类似“斯坦福25npc”的世界引擎,来把这些AI在一个虚拟物理世界中连接在一起,演绎出AI自己的生活和社交。


再来说复刻人,复刻的意思是我们不是只创造一个陪伴级别的AI。我们希望根据一个个体的外貌、声音、经历人设记忆、表达方式、人格、思想把一个个体复刻出来。其中思想复刻具有非常深远的商用价值,这也是在第一版本MTSagent中我们要攻克的点。


3、长期记忆的增强


作为陪伴者,用户会期待100轮、1千轮、1万轮的聊天状态是不同的。需要从陌生人变为朋友甚至变为恋人,这个过程AI需要积累对用户的长期记忆,但大模型是语境模型,长期记忆依赖外层框架,而这点的好坏差别巨大。作为陪伴者,用户会期待100轮、1千轮、1万轮的聊天状态是不同的。需要从陌生人变为朋友甚至变为恋人,这个过程AI需要积累对用户的长期记忆,但大模型是语境模型,长期记忆依赖外层框架,而这点的好坏差别巨大。


MTSagent中,用户的表达进入感知流会被情绪系统进行关注度标注。除了表达信息,思维流推知的信息也同样会进行关注度标注。关注度超过阈值的信息会被存储。然后我们有遗忘机制:让这些信息的关注度在存储中定期衰减,当关注度低于阈值记忆就被删除。但是被存储的信息被回忆或是被使用,就会增强关注度。


通过这个机制,假设用户第一天表达了100条信息,有50条重要的被记忆了,到了第二天,这50条就变成了10条,当中不那么重要的就被遗忘了,但一年后这中间两条重要的信息还被保存。


遗忘机制保证了记忆中保存的信息是重要的,存储信息随着用户使用时长线性增加是灾难性的,降低的记忆检索效率,降低了目标信息被联想的几率,增加了错误信息被联想的比率。


4、回应式对话


单体大模型创造的对话是回应式对话,每次用户表达完后大模型进行回应。回应式对话只是人类对话多种模式的一种。我们有其他模式。


其一,主动表达。主动表达不是回应,是AI自己希望表达的内容。主动表达根据急迫程度又分为几种类型,最不急迫的是在双方无话可说的时候的主动表达,也就是创造一个话题,较为急迫的是在回应后顺带的主动表达,更急迫的是无视对方表达不回应直接表达自己想表达的,最急迫的是打断对方表达的主动表达。我们会加强对话管理模型,创造四种不同急迫程度的主动表达。


其二,不同对话模式的切换。我们让GPT扮演一个大师,询问说“大师我最近执念很重怎么办”大模型大部分情况就会直接给建议,这是不对的。无论是大师解惑、心理咨询,人类的模式会在一开始更多的倾听,到了中场形成一些要确认的猜想进行询问,然后到了下半场形成了足够的认知,才开始控制表达,描述对话者的情况进行开导。对话模式的最终展现形态被回应倾向、主动表达倾向,以及背后的思维线决定。比如回应倾向的控制,我们可以让AI在倾听、生气、抑郁的时候会降低自己的回应倾向,只需要把回应视为一个感知流模块有自己最低关注度阈值,需要用户表达高于这个关注度才会回应,那么只需要提高这个最低关注度阈值就会降低AI的回应倾向(降低正常回复阈值,但倾听回应还是会正常发生的)。


5、永久提示和变动的提示


GPT拥有很强的角色扮演能力,可以通过一个角色扮演提示让GPT扮演某个职业,比如一个医生、心理咨询、法官、律师、营销者,或是让GPT扮演某个具体对象,比如名人、某个动物、甚至某个物体。一般的做法就是用一个永久提示进行角色扮演,类似characterAI就是这种模式的典型。永久提示的问题是让这样的AI只有短期体验效果。因为正常人类长期对话很多状态会发生改变。


比如对话过程中喜怒哀乐的全局情绪状态会发生变化,然后对对话者的态度会发生变化有时充满爱意、有时严肃、有时生气。在复刻一个人时,复刻人的经历、背景知识,需要在语境中形成对自身经历、知识的联想写入提示,作为语境下联想到的内容;需要把话题下AI唤起的自身立场也写入提示。这些都是一个AI在真正扮演一个人时需要动态变化的内容。


之前老MTSGPT浅层结合,我们用MTS监听GPT和用户的回应式对话,利用符号系统定向抽取信息,存储、运算、维护对话过程中时时变动的全局情绪、态度、联想到的各种信息、AI唤起的立场,然后让GPT考虑这些背景信息扮演它的角色。但这样的模式仍然和人类有一个关键不同——缺少思维线。


6、对话线和思维线


人类在对话过程中思维线和对话线是“分离统一”的。首先思维线是独立于对话线存在的,比如在咨询对话的倾听过程、听课听演讲的过程,虽然没有回应但所闻就会让思绪流转,有些思绪会向长期记忆形成沉淀或改变。


很多对话过程,会节奏性地进行回应或是主动表达。此时真正导致表达的信息出现在之前好几轮前的对话中,所以创造下一句表达的背景信息来自于语境记忆或长期记忆,而记忆中过往对话记录只是背景信息的一部分,更重要的背景信息是对话线导致的思绪流,向语境记忆和长期记忆沉淀形成的新信息,或是诱导联想起的过往的记忆。新形成的信息包括了对方表达的表层内容推知的内容,包括对象|事件拥有什么属性的印象,具体事件是否发生的印象,以及更多需要更多步推导获得的信息;也包括了唤起的立场,表达动机。联想起的过往的记忆就包括了联想起的自身经历,背景知识、其他记忆。


所以之前MTSGPT的浅层结合我们算是实现了部分的思维线:从长期记忆里联想,唤起立场。但即使在这两方面,之前的实现也是浅层级的。


7、人格执念


从表现上看我们需要一个顺从我们的AI。事实上顺从我们的人或AI都很容易让我们厌倦。事实上用户需要一个有自己独立喜好、观念、人格、执念的AI。我们用一个例子说明什么叫做AI的执念。假设AI知道用户肝不好,单纯大模型可能会在得知用户应酬时,提醒少喝酒。这并不是我们想要的。一个有“执念”的AI会回忆用户是否嗜酒会选择威胁、撒娇、利诱、说理(陈述肝不好喝酒的恶果)等更有强度的说服方式,持续一段时间去说服用户;在应酬后跟进“你应酬到底喝了多少酒?”,甚至因为用户再次不听话而发脾气。这时我们认为AI在这个点体现出了自己的执念。只有AI有自己独立的人格执念,用户才会把它当人而不是机器。


关于喜好,AI自身的喜好作为向量化记忆存储,可以创造喜好厌恶的询问表达。对话中联想到自己的喜好也会参与到表达的形成中,让表达反应自己的偏好。


AI对对象、事件的观念也可以作为向量化信息存储的。但我们需要的是AI在谈论巴以战争、俄乌战争时表达出自己的立场。我们知道这些具体事件的不可穷尽的。所以我们需要AI能生成对一个具体事件的观念。我们把AI的观念立场定义在母类层,比如对穆斯林、犹太人的喜好、对战争的立场,那么AI对巴以战争的立场就会继承这些建立在母类层的观念。


人格复刻我们在前面情绪系统有讨论,在效用模型的框架中通过参数控制就可以创造不同类型的人格。


关于执念。情绪系统评估了表达的目标的动机大小,动机的大小决定了尝试的深度。在对话中最直接的就是一个表达目标存在于表达生成GPTapi的持续时间。其次表达动机衍生出好奇具有很高的求解动机,从而根据耗散模型会有更大的求解深度。表现为一段时间内很多认知和好奇和目标相关。


其次AI关注的事情会导致AI的跟进反应。比如AI关注用户应酬有没有喝酒第二天会去询问。其次根据AI的人格设定,某些人格的AI会在用户不听劝时产生愤怒的情绪。根据生气的反应不同,一种情况这个情绪写入表达生成GPTapi会改变AI的表达风格,还有一种情况还会降低AI听到回应产生表达的意愿。


8、MTSagent如何创造AI生活


正常的陪伴会聊双方生活的喜怒哀乐。你问大模型“你最近怎样”“晚上什么安排”它会回答你,但是是瞎编乱造的。正确的做法需要类似“斯坦福25NPC”,通过一个平行世界引擎,把一个AI的行为输出给这个引擎,行为改变世界的物理状态,然后pw会告知另外一个进入某个场景的AI看到什么听到什么闻到什么,因为感知改变了又会影响这个AI的行为。这样就把不同AI的感知和行为连接在一起,从而这些AI能够在一个世界里面演绎出生活和社交。此时形成长期记忆,无论用户询问AI,还是AI主动表达自己和邻居因为某种原因冲突所以自己很郁闷,这些信息是真实演绎出来的是具有一致性的。


PW引擎在之前浅层结合中已经实现,但缺少机缘找到商用的场景。但之前的pw引擎发挥的作用也不甚完美,原因有二,其一pw引擎的复杂度不足以演绎出AI的社交,其二,基于符号驱动的AI本身缺乏泛化特性,很多过程的实现是受限的。


9、思想复刻——在骨头上长肉


思想复刻的一个巨大的价值在于如果我们能复刻各个领域顶级的专家的思想,我们就能把最好的咨询服务带给所有普通家庭。但思想复刻是几个维度的复刻中特别艰难的。因为大师的思想使用兼具了规则的成分和直觉发挥的成分,需要规则系统和大模型有效的结合。


比如我们要复刻中医,我们有海量的中医病例样本,包括了舌脉信息、临床症状以及对应的诊断结论和开方。但如果我们把这些数据丢给大模型训练,那么我们将得到一个普通的AI中医,因为这些样本中顶级中医的只占了少部分。


如果我们只希望复刻顶级中医,而其病例资料又很有限,怎么办。“骨头上长肉”骨头类比到强逻辑的思维,肉类比到基于强逻辑思维结论的自由发挥。大模型是用来训练肉,以训练肉的逻辑训练骨头就需要海量的训练样本。如果我们以逻辑方式给出骨头,让大模型在骨头上训练肉,就能大大减少训练的样本消耗。


比如在这个例子中,顶级中医看病是有强逻辑的中间结论的。我们先复现这些强逻辑的推知过程,然后在原始病例数据中补充中间结论,也就是我们把舌脉信息、临床症状加上中间结论,然后对应的诊断结论和开方给到大模型训练。这样训练出来的大模型对中间结论的提示是敏感的。在推理使用时,我们也是先把舌脉信息、临床症状给规则系统给出中间结论,再把中间结论也作为提示丢给大模型进行输出。


在产品层思想复刻要取得好的效果不仅仅要融合规则系统和大模型,做到“在骨头上长肉”。而且需要改变现有的一轮一轮的聊天模式,需要AI在被动倾听、诱导表达、提问、控场表达等不同对话状态下灵活切换。这点我们在本章第4节已有所讨论。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询