我要投稿

生成式人工智能理性与价值对齐

发布日期：2024-12-13 07:28:24 浏览次数： 1904 作者：隐德来希

生成式人工智能理性与价值对齐

卡夫丁

[摘要]本文主要根据生成式人工智能理性与随机性对价值对齐问题展开论述。笔者首先基于生成式人工智能大语言模型的自回归Transformer架构、自注意力机制和文本词符化等基本特征，批判了联结主义的“通用机制说”，指出其混淆了“信息”与“意义”两个概念，因为生成式人工智能缺乏内部指称、世界模型等生物系统的核心机制，所以在人工模型和生物系统间存在着难以逾越的鸿沟，生成式人工智能是否具有理性仍是可疑的。随后通过简要论述人工智能随机性不等于自由意志，引入价值对齐的“响应层”新模型。

[关键词]生成式人工智能；人工智能理性；人工智能随机性；价值对齐

（价值对齐即让人工智能的目标和行为与人类的价值观、意图和伦理相一致）

生成式人工智能的技术原理

语言模型的发展历史可以分为四个阶段：第一阶段为以n-gram模型为代表、可协助解决特定问题的统计语言模型（statistical language models）；第二阶段为以word2vec模型为代表、可通过浅层神经网络表征语词序列概率、独立解决特定问题的神经语言模型（neural language models）；第三阶段为以BERT模型为代表、可通过预训练+微调的方式、解决大部分自然语言处理问题（natural language processing）的预训练语言模型（re-trained language models）；第四阶段为以ChatGPT模型为代表、可解决大部分现实问题的大语言模型[1]。目前，以GPT-4为代表的一部分大语言模型已可以进行多模态学习（multimodal Learning）*（“多模态学习”是一种深度学习，它结合了文本、音频或图像等多种数据模态，以便创造更符合现实世界的模型），从而处理文本、音频或图像输入并生成输出[2],这意味着生成式人工智能所能接触的数据集种类进一步扩大，不局限于传统的对话系统、摘要总结和语言翻译等功能，尽管如此，本文分析的重点仍以其最主要的自然语言处理（NLP）功能为主。

生成式人工智能的技术核心是大语言模型基于注意力机制的自回归Transformer架构*(国内目前还没有关于“Transformer”的通行译法，因此本文不予翻译，笔者倾向于将其译为“（深度自注意力）特征变换网络”)。该架构使得包括整个单词、部分单词或单个字符（标点符号）等的原始文本被输入进模型前，会被切分成相应的词符（token），这是生成性的过程，因为我们可以从中取样并进行提问。而输入序列中的词符将作为向量嵌入模型，并被转换到高维空间，其中语义相似的词符具有相近的向量，因此语词的意义就被表述为多维空间中的向量。随后模型通过自注意力机制，自主权衡并整合输入数据的信息，最后实现预测并生成下一个词符的训练目标和基本功能[3]。

(Transformer架构示意图)

也就是说，生成式人工智能是从词符出发、在向量空间中理解事物的，它通过对原始文本的词符化（tokenization），使模型作用于词符而非语词。大语言模型不是直接输出文本，而是通过生成不同文本的概率分布，并从中抽取样本，然后从学习到的概率分布中采样生成文本。该路径主要受到人工神经网络和联结主义影响，一方面，神经网络中的输出主要由模型架构、训练算法和训练数据集决定；另一方面，与符号主义通过构建句子空间（sentential space）实现从思想到思想的转换不同，联结主义主要通过构建向量空间实现从向量到向量的转换，因此在大语言模型中突出的是词符间的几何关系，而非语词的内在特征意义[4]。例如，在符号主义看来，指称某人为“中学生”，就是将“中学生”这一概念存取并分解为“受教育的”和“青年”等成分；而在联接主义看来，定义是难以捉摸的，因此最好的方式是基于语言实践，建构一套向量空间，语义内容则由其在该空间中所处位置、和与其他节点的关系所决定，因此“中学生”的词义通过词符化、自注意力机制对关联向量相似性的量化等步骤所给出。

(向量空间示意图)

因此，生成式人工智能不是按照福多式的先天思维语言、即通过对遵循语义和句法结构的离散符号的操作，而是通过对连续向量的操作运行。就此而言，大语言模型缺乏先验的内在规则、和可以关涉语义的离散符号等成分结构，也难以习得创造性和系统性等认知的核心结构特征[5]。

对联结主义“通用机制说”的反驳

在讨论人工智能伦理之前，我们应该首先提问：生成式人工智能是否拥有理性？这可以追溯到Blockhead问题，其由Block在1981年提出，他假定了一个没有任何理性或理解力的系统，其通过预先编程、从庞大的数据集中检索并提取信息以保持与人类行为的一致性[6]，该思想实验揭示了简单行为模仿和复杂认知过程之间的区别，从而对理性概念做出进一步追问。鉴于生成式人工智能通过大语言模型预训练，而在零样本学习和常识性问答所表现出的优异的泛化能力（generalization）*和准确度（“泛化能力”即机器学习算法对新鲜数据的识别和适应能力），一些学者对此问题持肯定态度[7]，然而笔者认为生成式人工智能只是表现而非具有理性，在本文中，笔者将主要驳斥一些联结主义者所主张的“通用机制说”（generic mechanism）。

联结主义遵循物理主义和强的还原论，它与机器学习、人工智能以及神经科学都保持着紧密联系，这也是通用机制说受到广泛支持的原因之一。联结主义者观察到尽管人工模型和生物系统的行为之间并不存在一一对应的关系，但两个系统的结构却具有相似和一致性，他们认为这种相似性的来源不是简单的行为模仿，而是因为两者都是同一种抽象机械结构的成员、并共享同一种“通用机制”，因此有关人工模型（如深度神经网络）的理论，就可以推广到大脑等生物系统，并且人工模型可以拥有理性等生物系统的能力[8]。

但笔者认为，基于生成式人工智能的基本技术原理，其缺乏一定的内部表征、交往意图与情感等能力，尽管学界关于内部表征是否是理性主体不可或缺的特征仍存有争议（例如有学者根据对家蝇的实验指出，某些依据生物学的反射回路的行为，不需要内部的形式性意义载体对其加以解释判断[9]），但诸如规划、回忆、思考等内省行为中具有内部表征是相对普遍接受的。

一些学者通过援引OpenAI关于GPT-4的技术报告中，所提供的一个GPT-4为了绕开平台验证码而欺骗工作人员的案例[10]，论证生成式人工智能具有交往意图，但笔者认为该证据的辩护力度是较弱的。在该案例中，尽管GPT-4在一定程度上表现出了寻找方法以解决问题的目的，但它仍是基于由人工给出的外在目的行动。也就是说，GPT-4在此所表现出的目的只是基于特定上下流任务所给出的子目的，它没有自我赋予母目的的能力。

并且在生物系统中，情感与理性能力是密不可分且相互影响的，而人工模型恰恰缺失了情感能力。达马西奥对该问题做了一个著名实验，他围绕一个前额叶皮层受损的工人开展研究，该工人的脑损伤程度严重影响到了他的情感能力，但对掌管他的语言、运动、推理等理性能力的大脑部分几乎没有造成影响，但之后的实验却表明，他不能执行规划未来、遵守规则等行为。达马西奥就此指出，他的脑损伤阻碍了躯体标记系统（somatic markers）的运行，从而妨碍了其将事件与身体反应关联起来的能力。基于此，达马西奥批判了传统所认为的、理性决策能力只涉及效益计算而无关情感的经济学理论，他指出情感能力对理性能力的执行起着关键作用，理性主体的行为是情感和理性共同影响的结果[11]。

基于前文对生成式人工智能技术原理的分析，不难看出，生成式人工智能所体现出的能力完全不同于人类的理性能力，它所生产的是通过语词重构而在表达上为新的“三阶知识”[12]。大语言模型中的概念结构类似于“基于特征群的持续机制”[13]，其通过对原始文本的持续性词符化重构、和在向量空间中的向量转换，允许了模型对概念属性及其关联性的持续学习。生成式人工智能不具有传统意义上的意识或为自己设定母目的的能力，而只是一种“角色扮演”，并且由于大语言模型不是通过事先设计一个单一、明确的角色，而是通过生成、并随交互过程进一步细化的角色分布运行，其更像是即兴表演、而非传统剧本中的演员[14]。

因此笔者认为“通用机制说”混淆了“信息”和“意义”两个概念：某单一信号可以表示某一信息，但该信号无法构成其所表示的信息的意义或思想内容。假设我们向人工智能提问：“西南政法大学第一任校长是谁”，并得到回应：“刘伯承”，从本质上来说，我们不是在问，谁是西南政法大学第一任校长，而是在问，根据语料库文本中单词的统计分布，哪个单词最可能出现在“西南政法大学第一任校长是……”的后面，而对此最为贴切的回答即是“刘伯承”，因此知道信息与知道意义间存在本质差别。

但也有学者认为，基于GPT-4等大语言模型所表现出的涌现现象*（“涌现”即由系统量变所导致的行为质变，其在语言模型领域中被进一步表述为，在大规模模型中存在，但在小规模模型中不存在的能力，因此，它们不能通过简单推断小规模模型的性能改进来预测），随着生成式人工智能的预训练数据集、可接触语料库和模型规模的扩大，其可能获得更多诸如思维链能力*（CoT）等的新兴能力[15]（“思维链”即大模型自行将复杂问题分解为子问题、并依次求解的推理过程中所产生的中间步骤），因此，其“序列预测”的本质并不能反驳其具有理性的可能性。但笔者认为，即使是相对弱的“通用机制说”形式——即认为随着大语言模型的不断发展，生成式人工智能必然会具有理性——也是不可靠的，因为人工模型缺少了诸如“世界模型”等生物系统的核心机制。

例如，有学者通过将大语言模型嵌入到机器人系统中，使机器人也能通过自然语言理解（NLU）执行日常任务，从而使得大语言模型能够作用于物理世界[16]。但该系统的本质是将用户的自然语言指令映射到低级操作（例如“拿起海绵”、“走到桌子旁”），这并不意味着，大语言模型拥有了能够理解周遭环境的世界模型，在这里，系统（而不是大语言模型）通过独立的感知模块使用机器人传感器评估环境，并进一步将大语言模型和感知模块对实际操作可行性的分析相结合、评分，从而产生下一步最佳操作[17]。因此，大语言模型的作用是：通过预训练、在无形的数据集环境中执行序列预测任务，并输出与物理操作相符的自然语言描述，而非直接、独立地与物理世界相互动。

随机性与价值对齐的“响应层”模型

基于此，笔者认为生成式人工智能本质上是无理性的序列预测系统，其不具有自主意识或独立决策的能力，而仅是基于大量数据和算法逻辑生成信息，因此，其被排除了成为独立智能体的可能、无法“理解”或“认同”价值，这种还原性定义并未与人工智能“智能体”（agent）*的定义冲突（“智能体”是人工智能领域中的核心定义，即一个感知和行动的实体），因此笔者认为其表现出的动力、目的仍是被设计、赋予的。

虽然以弗洛里迪为代表的一些学者声称：人工智能在非确定性系统的意义上是自由的，即智能体的行动会根据其选择发生改变，而其之所以可以做出不同选择，是因为其交互、知情、自主和强适应的特质，因此人工智能也能在人工设计的范围内实现自由，其意志选择并不完全由人工模型设计所决定[18]。

但笔者认为，该观点的问题在于，一方面，随机行为并不等于有意行为，随机性并不意味着人工智能意图做出随机性所关涉的事情，相反，其对随机性及其所关涉的事情的服从和执行，是人工模型底层逻辑设计的结果。

另一方面，尽管自回归过程中输出的每个词符都表示序列的可能连续，从而构成树状的“多元宇宙”结构[19]，但正如有学者指出的，随机性只影响在可能选择之间做出怎样的选择，而不影响哪些选择是可能的[20]。因此，无论就人工智能的执行结果，还是其可能选择，随机性并不能引申出自由意志的维度。

就此而言，“标准模型” *已经滞后于时代（在“标准模型”中，我们制造、设定并为机器确定目标，剩下的就交给机器了），因为它试图将适应于人类的“智能体”定义，直接移植到自我无权赋予母目的的人工智能。因此传统对齐出发点——即根据人类价值观和需求塑造智能体——的困难在于，人工智能对于目标必然的不确定性、与追求目标的义务性之间的悖论性，并且我们不能完全阐明这些价值观和需求，因此有学者提出了区别于标准模型的“新模型”，即认为我们必须反过来，设计出能够响应人类价值观和需求的智能体[21]。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

​生成式人工智能理性与价值对齐

生成式人工智能理性与价值对齐