在大型语言模型(LLMs)中理解知识的作用机制对于推进可信的通用人工智能(AGI)至关重要。本文从知识利用和演化的新分类法角度回顾了知识作用机制分析。知识利用深入探讨了记忆、理解与应用、创造的机制。知识演化着重于个体和群体LLMs内部知识的动态发展。此外,我们讨论了LLMs学习的知识、参数化知识的脆弱性原因,以及将长期存在的潜在“暗知识”(假设)。我们希望这项工作能帮助理解LLMs中的知识,并为未来的研究提供见解。作者:张长旺,图源:旺知识
1 引言
知识是智能的基石和文明的延续,为我们提供了解决复杂问题和应对新挑战的基础原理和指导(Davis等人,1993;Choi,2022)。在漫长的进化历史中,我们致力于通过利用获得的知识并探索未知知识领域的前沿来培养更先进的智能(McGraw和HarbisonBriggs,1990;Han等人,2021)。众所周知,大型语言模型(LLMs)也因包含广泛的参数化知识而闻名(Roberts等人,2020;Sung等人,2021;Cao等人,2021;Zhong等人,2021;Kandpal等人,2023;Heinzerling和Inui,2020;Petroni等人,2019;Qiao等人,2023;Kritharoula等人,2023;He等人,2024a),在应用上取得了前所未有的进步。然而,LLMs在知识学习、存储、利用和演化方面的作用机制仍然神秘(Gould等人,2023a)。大量工作旨在通过知识神经元(Dai等人,2022;Chen等人,2024a)和电路(Elhage等人,2021;Yao等人,2024;Zou等人,2024)揭示LLMs中不同类型的知识,然而这些努力分散在各种任务中,有待全面审查和分析。
如图1所示,本文开创性地回顾了整个知识生命周期的机制。我们还提出了一个新颖的分类法,用于LLMs中的知识机制,如图2所示,包括特定时间的知识利用和LLMs所有时期跨越的知识演化。
图1:神经模型内知识机制的分析框架包括知识演化和利用。暗知识表示人类或模型(机器)不知道的知识。我们研究了LLMs在特定演化阶段的知识利用机制(右),以及通过机制分析确定的知识局限性将激发随后的演化(左)。
我们的贡献如下:
据我们所知,我们是第一个回顾LLMs中知识机制的人,并提供了一个涵盖整个生命周期的新颖分类法。
我们提出了一个新的视角,从三个层面分析知识利用机制:记忆、理解与应用,以及创造。
我们讨论了个体和群体LLMs中的知识演化,并分析了这一过程中的内在冲突和整合。
我们怀疑,普遍的Transformer架构可能阻碍创造力,数据分布和数量可能导致参数化知识的脆弱性,导致幻觉和知识冲突。此外,暗知识将长期存在。
以往的可解释性综述通常旨在调查LLMs中不同组件角色的各种方法,从全局和局部分类法(Ferrando等人,2024;Zhao等人,2024a;Luo和Specia,2024;Murdoch等人,2019;Bereska和Gavves,2024;Vilas等人,2024;Singh等人,2024)进行研究。与此相反,本文专注于LLMs中的知识。因此,我们的分类法以LLMs中的目标知识为导向,回顾了知识是如何被获取、存储、利用,随后又如何演化的。此外,以前的分类法大多探索了推理阶段(特定时期)的可解释性,而忽略了预训练阶段的知识获取和后训练阶段的演化(Räuker等人,2023;Luo等人,2024b;Apidianaki,2023;Jiao等人,2023;Räuker等人,2023;Rai等人,2024)。我们的分类法旨在探索从天真到成熟的个体和群体LLMs的所有时期中的动态演化。与最相似的综述(Cao等人,2024a)引入知识生命周期相比,我们的工作专注于每个阶段的底层机制。总的来说,本文可以帮助我们探索和操纵LLMs中的高级知识,通过知识演化的历史检查当前限制,并激发未来模型更有效、更值得信赖的架构和学习策略。
本文可能帮助我们探索和操纵LLMs中的高级知识,通过知识演化的历史来检查当前的限制,并激发未来模型更有效、更值得信赖的架构和学习策略。请注意,本文中的大多数假设都是基于基于Transformer的LLMs推导出来的。我们也验证了这些假设在其他架构模型中的普适性,然后在§B中提出了普适智能。
2 预备知识
2.1 知识范畴
知识是对事实的意识,是一种熟悉、意识、理解或了解的形式(Zagzebski, 2017; Hyman, 1999; Mahowald等人,2023; Gray等人,2024)。它通常涉及通过经验学习到的信息的拥有,并且可以被理解为一种认知成功或与现实的认识的接触。我们将多样化的知识集称为集合K,其中每个元素k ∈ K是特定的知识片段,可以通过各种记录表达,例如文本记录“2024年美国总统是拜登”(表示为rk)。
2.2 LLMs中知识的定义
给定一个表示为F的大型语言模型,我们规定如果F能够正确回答相应的问题rk_t,则F掌握知识k:
其中F是一个大型语言模型,rk_t是关于知识k的记录,缺少关键信息t。以示例说明:rk_t是“2024年美国总统是__”,t是“拜登”。此外,rk_t可以由上述文本陈述表示,通过问答对(“2024年美国总统是谁?”)或通过音频、视频、图像2和其他等效表达方式捕捉。正确的答案可以通过各种格式表达,被制定为T = {“拜登”,“乔·拜登”,……}。t是T中的一个元素。
2.3 LLMs的架构
一个大型语言模型F由众多神经元组成,它们在特定架构下系统地工作。
基于Transformer的架构。当前LLMs中流行的架构是Transformer。具体来说,基于Transformer的大型语言模型F从标记嵌入开始,接着是L层Transformer块,最后以标记非嵌入结束。
2.4 知识分析方法
知识分析方法M旨在揭示从输入到输出的精确因果机制(Bereska和Gavves,2024)。此外,如果F的组件C通过分析方法M准确推断出t,我们假设知识k由C呈现:
集合C中的元素可能是单个神经元、MLPs、注意力头、Transformer块层或知识电路(Yao等人,2024)。受到分析层次(Yurdusev,1993)的启发,这些方法可以分为两个主要类别:观察和干预(Bereska和Gavves,2024)。
基于观察的方法。这些方法旨在通过E直接将F的内部信息投影成人类可理解的形式:
E是评估指标,可以是探针、logit镜头或稀疏表示。探针是一个经过精心训练的分类器,其分类性能用于观察模型行为和C的输出之间的关系(Räuker等人,2023;Belinkov,2022;Elazar等人,2021;McGrath等人,2021;Gurnee等人,2023)。Logit镜头通常通过标记非嵌入将C的输出转换为词汇标记(nostalgebraist,2020;Geva等人,2022b;Belrose等人,2023;Pal等人,2023;Din等人,2024;Langedijk等人,2023)。稀疏表示通过稀疏自编码器(Gao等人,2024b;Sharkey等人,2022;Cunningham等人,2023;Lee等人,2006)或稀疏字典学习(He等人,2024b;Olshausen和Field,1997;Yun等人,2021)将C的输出解耦为基本特征。每个基本特征表示一个可解释的单元,C的输出是这些基本特征的组合(Elhage等人,2022;Bricken等人,2023)。
基于干预的方法。这些方法允许在LLMs中进行直接的破坏,以识别关键的C通过干预策略I。请注意,C包括各种神经元组合,与特定模型行为相关:
I也被称为因果中介分析(Vig等人,2020)、因果追踪(Meng等人,2022)、交换干预(Geiger等人,2022)、激活修补(Wang等人,2023c;Zhang和Nanda,2023)和因果擦除技术。对于基于干预的方法,E通常指的是用于预测答案标记的标记非嵌入。在E的评估指标下,C和LLMs F的特定行为之间存在因果关系。通常,I包括以下三个步骤。1)干净运行:使用F执行输入并获取答案。2)破坏运行:通过嘈杂的输入或F的激活破坏执行过程(Meng等人,2022;GoldowskyDill等人,2023;Stolfo等人,2023;Yao等人,2024;Conmy等人,2023;Mosting等人,2024;Lepori等人,2023;Huang等人,2023a)。3)恢复运行:使用上述破坏运行中获得的C恢复正确答案(Meng等人,2022;Vig等人,2020;Wang等人,2023c;Zhang等人,2017;Nanda,2023)。
3 知识在LLMs中的利用
根据布鲁姆的认知层次分类(Bloom等人,1956;Keene等人,2010;Fadul,2009),我们将LLMs中的知识表示和利用分为三个层次:记忆、理解与应用,以及创造。请注意,这些机制分析是通过第2.4节中的方法实现的。我们进一步评估了不同方法的适用性、优点和局限性。
3.1 记忆
知识记忆的目标是记住并回忆知识,例如特定的术语(实体)、语法、事实、常识和概念。我们通过现有研究回顾,提出了模块区域假设和连接假设来解释知识记忆。
假设1:模块区域知识被编码在模块化区域中。
类似于人脑的功能区域,模块区域假设将基于Transformer的模型中的知识表示简化为孤立的模块化区域,例如MLPs或注意力头。知识通过MLPs进行编码。Geva等人(2021)认为MLPs作为关键-值记忆操作,每个单独的键向量对应于特定的语义模式或语法。基于这一发现,Geva等人(2022b,a)逆向工程了MLPs层的操作,并发现MLPs可以在词汇空间中促进语义(例如,度量语义包括千克、百分比、传播、总数、码、磅和小时)和句法(例如,副词句法包括在很大程度上、迅速、有效、之前和通常)概念。Miller和Neo(2024)发现GPT-2 Large中的单个MLP神经元能够生成“an”或“a”。随后,事实(Dai等人,2022;Meng等人,2022)和常识知识(Gupta等人,2023)也被发现了。高级语言特定的神经元(Tang等人,2024)、语言区域(Zhao等人,2023a)、熵神经元(Stolfo等人,2024)、抽象概念(Wang等人,2024e)和不安全(Wang等人,2024b;Wu等人,2023)知识,也在MLPs中被观察到。除了MLP,知识还通过注意力头传达(Geva等人,2023;Gould等人,2023b)。Hoover等人(2020)解释了每个注意力头学到的知识。具体来说,注意力头存储了明显的语言特征、位置信息等。此外,事实知识(Yu等人,2023b;Li等人,2023a)和偏见(Hoover等人,2020)主要由注意力头传达。Jiang等人(2024b)进一步观察到,LLMs利用自注意力通过上下文中的某些标记作为线索,使用值矩阵进行联想记忆。后来,Zhu等人(2024)也发现注意力头可以模拟心理状态并激活“心理理论”(ToM)能力。然而,假设1忽略了不同区域之间的连接。受到神经科学进展的启发(de Schotten等人,2022),假设2声称不同组件之间的连接整合了知识,而不是假设1中的孤立区域。
假设2:连接知识由连接表示。
Geva等人(2023)概述了事实知识(例如,“爱尔兰的首都是都柏林”)的编码,通过以下三个步骤:(1)主题(爱尔兰)信息在MLPs中丰富,(2)关系(首都的)传播到最后的标记,(3)对象(都柏林)由后层的注意力头提取。这一主张得到了Li等人(2024c)的支持。同样,Lv等人(2024)得出结论,特定任务的注意力头可能将主题实体移动到残差流的最后位置,而MLPs执行关系功能。此外,最近突出的知识电路框架(Nainani,2024;Yao等人,2024;He等人,2024b;Elhage等人,2021;Marks等人,2024)提倡利用所有组件中的关键计算子图来探索LLM参数内的内部知识。间接对象识别和颜色对象任务的能力被发现嵌入在专门的知识电路中(Conmy等人,2023;Wang等人,2023c;Merullo等人,2023a;Yu等人,2024c)。Lan等人(2024)还确定了与数字相关的电路,这些电路编码了阿拉伯数字、数字词和月份的预测能力。更重要的是,实验证据表明,各种类型的知识,包括语言、常识、事实和偏见信息,都包含在特定的知识电路中(Yao等人,2024)。有趣的是,由特定电路编码的知识可以与整个LLM相媲美甚至超越。这可能是因为知识电路记住了相关知识,而其他组件的噪声可能会阻碍模型在这些任务上的性能。
3.2 理解与应用
知识理解与应用侧重于展示对记忆知识的理解,并在新情境中解决问题,例如推理(Hou等人,2023)和规划(McGrath等人,2021)。Merrill等人(2023)将从记忆到理解和应用的转变称为"grokking",并建议这种"grokking"来自于两个截然不同的子网络的竞争。直观地说,只有正确记忆的知识(Prashanth等人,2024)在§3.1中才能进一步应用于解决复杂任务。因此,我们从两个知识记忆角度提出重用假设。
假设3:重用LLMs在知识理解和应用过程中重用特定组件。
从模块区域视角来看,知识利用会重用一些区域。这些区域可能包括一些神经元、注意力头、MLPs或部分知识电路。通常,基础知识(位置信息、n-gram模式、句法特征)倾向于存储在前几层,而复杂的知识(心理状态、情感和抽象概念,例如质数、骆驼科和安全)位于后几层(Zhu等人,2024;Jin等人,2024a;Wang等人,2024b,e;Men等人,2024;Kobayashi等人,2023)。因此,与基础知识相关的前几层的神经元倾向于被重用(Kang和Choi,2023;Zhao等人,2024a;Kandpal等人,2023)。各种数学推理任务也利用初始层的注意力机制将输入信息映射到最终标记位置,随后使用后几层的一组MLPs生成答案(Stolfo等人,2023;Hanna等人,2023;Langedijk等人,2023)。此外,一些特定功能区域也被重用。具体来说,检索头(Li等人,2023a)被重用于链式推理(CoT)和长上下文任务。这些检索头在4个模型家族、6个模型规模和3种微调类型中被发现。随后,在Llama和GPT中识别出的诱导头,被认为负责上下文学习(ICL)任务(Olsson等人,2022;Crosbie和Shutova,2024)。此外,Lv等人(2024)发现一个注意力头可以将国家名称映射到首都城市。Li等人(2023a)证明,一些注意力头(在Alpaca、Llama和Vicuna中)表现出提供真实答案而非幻觉的能力。Tang等人(2024)发现特定于语言的神经元(在Llama和BLOOM中)处理多种语言,如英语、法语、普通话等。Zhao等人(2023a)进一步揭示了语言区域(在Llama中)对应于语言能力,这是执行各种任务的基石。从连接视角来看,知识利用共享部分知识电路。例如,类似任务共享具有类似角色的子图(Lan等人,2024)。此外,知识电路(在GPT2中)被重用来解决看似不同的任务,例如间接对象识别和彩色对象任务(Merullo等人,2023a)。Wang等人(2024a)进一步观察到,两跳组合推理任务重用了第一跳的知识电路。Yao等人(2024)也认为这种重用现象存在于事实回忆和多跳推理中。具体来说,子电路在类似事实知识中被重用,如与“city_in_country”、“name_birth_place”和“country_language”相关的任务。此外,Dutta等人(2024)揭开了LLMs如何执行CoT推理的神秘面纱,即Llama通过多个并行电路显著交叉来促进CoT任务。
3.3 创造
知识创造(Runco和Jaeger,2012;Sternberg,2006;Gaut,2010)强调形成新颖和有价值的事物的能力和过程,而不是LLMs已经见过的现有事物(如在§3.1和§3.2中讨论的)。创造包括两个层次:1)LLMs根据LLMs理解的当前世界原则创造新术语,例如新的蛋白质(Shin等人,2021;Madani等人,2023)、分子(Bagal等人,2022;Fang等人,2023;Edwards等人,2022)、代码(DeLorenzo等人,2024)、视频(Kondratyuk等人,2023)、模型(Zheng等人,2024)、人和公司的名称、书面故事(Gómez-Rodríguez和Williams,2023;Buz等人,2024)、合成数据(Stenger等人,2024;Mumuni等人,2024;Abufadda和Mansour,2021)等。这些新颖项目根据现有规则运作,例如能量守恒定律、推理逻辑(Wang等人,2024a)或概率论原则。2)LLMs可能会生成新规则,例如数学定理,由此产生的术语将根据新规则运作。我们认为,LLMs的知识创造可能源于外推假设。
假设4:外推LLMs可能通过外推创造知识。
知识表达形式多样;有些知识本质上是连续的。因此,使用离散数据点表示某些知识是困难的,甚至是不可能的(Spivey和Michael,2007;Penrose;Markman,2013)。LLMs利用对世界运作原则的洞察,从未知离散点推断出额外的知识,填补知识间的空白,并扩展我们对世界的理解(Heilman等人,2003;Douglas等人,2024;Park等人,2023b;Kondratyuk等人,2023)。从人类创造力研究中汲取灵感(Haase和Hanel,2023),知识外推的物理实现依赖于神经元的可塑性(Mukherjee和Chang,2024)。具体来说,可塑性指的是LLMs根据输入改变激活和神经元之间的连接(Coronel-Oliveros等人,2024)。然而,从统计学角度来看,尽管神经元之间的复杂连接和激活不是无限的,但它们抵抗详尽列举。在价值方面,并非所有创造都是有价值的。以极低的概率获得有价值的东西是不切实际的,因为即使是一只猴子理论上也能打印出莎士比亚的作品。LLMs如何确保生成有价值创造的概率?创造的新颖性和价值背后的机制是什么?一个普遍的猜想认为,新颖性是通过随机游走(Sæbø和Brovold,2024)产生的。然而,直观地说,当前的LLMs本身似乎无法评估创造的价值,因为架构限制(Chakrabarty等人,2024)。因为,一旦生成下一个标记,就没有内在机制接受或拒绝创造。这阻碍了对提出新颖性的有用性和价值的评估,就像人类通过弯曲、混合或打破偏见(Sæbø和Brovold,2024)所做的那样。一些工作假设每个标记确实是有价值的,并满足长期期望。然而,LLMs众所周知的幻觉问题(Xu等人,2024d)反驳了这一假设。此外,尽管存在许多解决这一问题的变体,Transformer架构仍在长期上下文中挣扎(Li等人,2024a)。更重要的是,Transformer的MLPs也可能与创造力背道而驰,即增加的注意力缩小了标记预测的条件分布(Sæbø和Brovold,2024)。
3.4 不同机制分析方法的比较
上述四个假设是通过基于观察的方法和基于干预的方法实现的。这两种方法通常结合使用来追踪LLMs中的知识(Mossing等人,2024;Ghandeharioun等人,2024)。大多数知识分析方法是与架构无关的,并且可以适应各种模型。
每种方法适用于不同场景。具体来说,模块区域假设可以使用基于观察的方法或基于干预的方法进行分析。相比之下,检查区域间连接的连接假设通常需要基于干预的方法。然而,知识机制分析的结果在很大程度上取决于不同的方法,并且对评估指标和实施细节很敏感。因此,Huang等人(2024b)提出了一个数据集RAVEL,用于量化比较各种现有可解释性方法。他们建议,有监督的方法比无监督的特征提取器更好。后来,Zhang和Nanda(2023)进一步系统地检查了基于干预的方法中方法细节的影响。对于破坏运行,他们推荐使用对称标记替换(例如,“埃菲尔铁塔”→“罗马斗兽场”)而不是高斯噪声(Meng等人,2022),后者会破坏模型的内部机制。此外,由于其对定位结果的细粒度控制,他们建议使用logit镜头而不是探针作为评估指标E。
4 知识在LLMs中的演化
LLMs中的知识应该随着外部环境的变化而演化。我们为个体和群体中的知识演化引入了动态智能假设。
假设5:动态智能冲突和整合在LLMs的动态知识演化中共存。
4.1 个体演化
沉浸在动态世界中的个体,通过记忆、遗忘、错误纠正和对周围世界的深入理解的迭代过程而成熟。类似地,LLMs通过冲突和整合的过程,将知识动态地封装到参数中。在预训练阶段,LLMs从白板开始,有助于新知识的获取。因此,许多实验表明,在这个阶段LLMs积累了大量的知识(Cao等人,2024b;Zhou等人,2023a;Kaddour等人,2023;Naveed等人,2023;Singhal等人,2022)。Akyürek等人(2022)进一步深入研究,确定了哪些训练示例对于赋予LLMs特定知识至关重要。然而,预训练阶段的矛盾可能会在内部参数知识中引起冲突。一方面,训练语料库中的虚假和矛盾信息通过语义扩散传播,并污染LLMs中的相关记忆,引入了超出直接影响的更广泛的有害影响(Bian等人,2023)。另一方面,LLMs倾向于优先记忆更频繁和具有挑战性的事实,这可能导致后续事实覆盖先前的记忆,显著阻碍了低频事实的记忆(Lu等人,2024)。换句话说,LLMs在平衡和整合低频和高频知识方面存在困难。预训练之后,预计LLMs将在后训练阶段刷新其内部知识,以跟上不断变化的世界。尽管LLMs似乎通过持续学习吸收新知识,通过指令调整(Zhang等人,2023c)遵循用户指令,并通过对齐调整(Ziegler等人,2019)与人类价值观保持一致,但Ji等人(2024a)已经注意到LLMs在后训练阶段内在地抵抗对齐。换句话说,LLMs倾向于通过预训练学习事实知识,而微调则教会它们更有效地利用这些知识(Gekhman等人,2024;Zhou等人,2023a;Ovadia等人,2024)。Ren等人(2024)还认为,指令调整是一种自我对齐的过程,与现有内部知识对齐,而不是学习新信息的过程。我们推测,关于这些过程是否真的引入了新知识的争论源于信息冲突。例如,LLMs内部的过时信息与新的外部知识之间的冲突加剧了它们学习新信息的困难。为了缓解信息冲突,Ni等人(2023)提出首先忘记旧知识,然后学习新知识。另一种技术,检索增强生成(RAG)(Huang和Huang,2024),虽然避免了内部参数的冲突,但仍然需要管理检索到的外部信息和LLMs内部知识之间的冲突(Xu等人,2024b)。RAG还尝试使用多重检索(Yang等人,2024a)和海马索引(Gutiérrez等人,2024)高效且有效地整合跨段落或文档的新知识。此外,编辑技术,包括知识编辑和表示编辑,显示出增加、修改和擦除知识方面的有希望的潜力。具体来说,知识编辑(Zhang等人,2024a;Wang等人,2023d;Mazzia等人,2023)旨在选择性地修改模型参数,这些参数负责特定知识的记忆,而表示编辑(Zou等人,2023;Wu等人,2024)调整模型对知识的概念化,以修改存储在LLMs中的知识的表示。请注意,知识编辑的另一种策略是为新知识添加外部参数或记忆库,同时保留模型的参数。
4.2 群体演化
除了个体学习,社会互动在获取新知识和推动人类社会发展中起着关键作用(Baucal等人,2014)。LLMs,也称为智能体,在群体演化期间通过协作完成复杂任务,每个智能体都拥有独特的知识,这些知识有时可能相互矛盾。因此,与个体演化不同,群体演化面临更加激烈的冲突,例如智能体之间的专业专长冲突、竞争利益、文化差异、道德困境等。为了达成共识和解决冲突,智能体必须首先通过模型中的内部表示明确自己和他人的目标(信念)(Zhu等人,2024;Zou等人,2023)。智能体随后通过各种沟通方法(Soltoggio等人,2024)讨论、辩论和反思共享知识,例如提示指令、任务和智能体描述、参数信号(激活和梯度)以及模型的表示。然而,智能体的一致性倾向于相信多数人的错误答案,而不是坚持自己的,这阻碍了群体演化过程中的冲突解决(Zhang等人,2023a)。
请注意,群体在面对道德冲突时也在自动化道德决策方面存在困难。具体来说,群体中的智能体缺少道德“正确性”的真实基础,并由于道德规范随时间的变化而遇到困境(Hagendorff和Danks,2023)。通常,在沟通过程中分享知识的时间、内容和方式,以最大化学习效率和长期期望,仍然是群体演化中的未解决问题。
通过辩论和协作,群体整合了更多的知识,可以超越个体单位的认知(Liang等人,2023a;Qian等人,2023;Qiao等人,2024;Talebirad和Nadiri,2023;Zhang等人,2023a)。这源于每个个体单位都可以为集体知识做出贡献并从中受益的假设(Soltoggio等人,2024;Xu等人,2024c)。此外,“当一个度量成为目标时,它就不再是一个好的度量”,这意味着优化单个个体的一个目标将不可避免地在某种程度上损害其他优化目标。因此,与群体优化相比,一个个体学习所有知识是不现实的。有趣的是,LLM群体还遵循协作扩展法则(Qian等人,2024a),其中归一化解决方案质量随着智能体的扩展遵循逻辑增长模式。此外,一些工作(Huh等人,2024;Bereska和Gavves,2024)提出,知识倾向于在具有不同数据、模态和目标的整个人工神经模型群体中汇聚到相同的表示空间。
4.3 不同演化策略的比较
个体和群体主要通过两种策略实现动态智能:更新内部参数知识(Zhou等人,2023a;Qiao等人,2024)和利用外部知识(Huang和Huang,2024;Xie等人,2024)。这两种策略通常在应用中一起使用(Yang等人,2024b)。更新内部参数知识需要高质量的数据进行参数调整(Vashishtha等人,2024)。数据在微调模型以获取新知识时至关重要。Ovadia等人(2024)还指出,通过无监督调整继续训练LLMs通常在获取新知识方面表现不佳。注意,更新内部参数知识需要解决内部参数之间的冲突。有效内部知识更新的关键在于在调整前后保持模型参数知识的一致性。相比之下,利用外部知识需要管理外部知识本身的冲突以及外部和内部知识之间的冲突(Xu等人,2024b;Liu等人,2024a)。此外,参数化知识压缩了大量信息,促进了理解并增强了泛化(Wang等人,2024a)。相比之下,利用外部知识避免了高昂的训练成本,但需要大量的维护和检索成本来应对每个用户查询。因此,这两种策略的结合是有希望的。一个尝试结合的尝试(Yang等人,2024b)建议使用RAG处理低频知识,而参数策略处理高频知识。
5 讨论
5.1 LLMs学到了什么知识?
批评者质疑LLMs是否真的拥有知识,或者它们是否只是在模仿(Schwarzschild等人,2024),类似于“随机鹦鹉”(Bender等人,2021)和“聪明的汉斯”(Shapira等人,2024)。我们首先从以下三个层面通过观察现象回顾怀疑:1)记忆:LLMs主要依赖于位置信息而非语义理解(Li等人,2022)来预测答案。此外,LLMs可能由于不同的表达方式对相同的问题生成不同的答案。2)理解与应用:Allen-Zhu和Li(2023b)认为,LLMs很难有效地应用预训练数据中的知识,即使这些知识被完美地存储和完全从LLMs中提取出来。因此,LLMs在多样化的推理任务(Nezhurina等人,2024;Gutiérrez等人,2024)以及反向诅咒(Berglund等人,2023)中挣扎。此外,LLMs还不能可靠地作为文本世界模拟器,并在规划(Wang等人,2024d)中遇到困难。3)创造:尽管LLMs能够生成新术语,它们创造的质量通常低于人类创造的(Raiola,2023)。即使LLMs拥有知识,一些批评者认为当前的分析方法可能只能解释低级共现模式,而不是内部机制。主要的批评是,LLMs中负责某些类型知识的组成部分在实际应用中表现不佳(Hase等人,2023)。此外,不同方法下LLMs中负责特定知识的组成部分各不相同。对于这些批评,Chen等人(2024f,d)提出退化神经元,并认为不同的退化组成部分确实独立地表达了一个事实。Chen等人(2024e)描述了知识存储和表示机制的差异,提出了查询定位假设来响应这些争议。Zhu和Li(2023)进一步观察到,知识可能被记忆但没有被提取,因为知识在预训练期间没有得到充分的增强(例如,通过释义、句子洗牌)。因此,重写训练数据以提供知识增强,并在预训练阶段加入更多的指令微调数据,可以有效地缓解上述挑战和批评。
尽管受到相当大的批评,主流观点是当前的LLMs可能拥有基本的世界知识,但很难掌握推理和创造力的基础规则知识。换句话说,LLMs掌握了知识记忆(在§3.1中讨论)。尽管LLMs拥有理解和应用知识的基础能力(在§3.2中讨论),但由于LLMs中知识的脆弱性(在§5.2中阐述),它们在复杂任务中的推理和规划仍然存在困难。这些推理和规划能力通常需要通过ICL和CoT等技术来诱导。不幸的是,由于架构限制(在§3.3中讨论),当前的LLMs几乎无法创造。因此,一些学者探索了各种架构选择(例如Mamba)和训练程序。为了构建一个透明和可信的模型(Yu等人,2023c),一些倡议建议在网络架构中鼓励稀疏性、模块性和单一语义性。此外,最近的研究试图通过操纵神经元、知识电路或表示(Allen-Zhu和Li,2023b;Zou等人,2023;Wu等人,2024;Li等人,2023a)来探索更多的知识和唤醒LLMs的推理和规划能力。
备注:LLMs拥有基本的世界知识,但在应用中遇到挑战(§5.2)。一些知识仍然超出了它们当前的认知范围(§5.3)。例如,由于架构限制,LLMs在创造力方面挣扎。
5.2 不当学习还是误用?
LLMs学到的知识是脆弱的,导致幻觉、知识冲突和安全风险问题。幻觉指的是LLMs生成的内容与现实世界的事实或输入不符(Huang等人,2023b;Xu等人,2024d;Farquhar等人,2024;Chen等人,2024c)。一方面,事实性幻觉强调了生成内容与现实世界知识之间的差异。另一方面,忠实度幻觉描述了生成内容与用户指令或输入上下文的偏离,以及在生成内容中保持的一致性。知识冲突本质上指的是知识的不一致性(Xu等人,2024b;Kortukov等人,2024)。一方面,模型内部记忆冲突导致LLMs表现出不可预测的行为,并对输入产生不同的结果,这些输入在语义上等价但在语法上不同(Xu等人,2024b;Wang等人,2023a;Feng等人,2023b;Raj等人,2022)。另一方面,上下文-记忆冲突主要是由于外部上下文知识与内部参数知识相矛盾(Jin等人,2024b;Yao等人,2024;Hoffmann等人,2022;Kasai等人,2023)。
我们认为,这些挑战主要源于不当的学习数据。具体来说,幻觉是由数据(Kang和Choi,2023;Weng,2024)引入的,在预训练(Brown等人,2020;Chiang和Cholak,2022)期间加剧,对齐(Azaria和Mitchell,2023;Ouyang等人,2022)和解码策略(Fan等人,2018;Chuang等人,2023;Shi等人,2023)的不足。内部记忆冲突可以归因于训练语料库的偏见(Wang等人,2023b),并因解码策略(Lee等人,2022b)和知识编辑而加剧。上下文-记忆冲突主要源于训练期间缺乏准确的知识,需要从数据库和Web中检索。Wang等人(2024a)进一步深入研究了参数知识与学习数据之间的机制,展示了训练数据分布如何定性地影响泛化行为(Jiang等人,2024a)以及LLMs如何将与推理相关的知识封装或增强到特定组件中,例如桥接层(Wang等人,2024a)。类似的机制分析也支持上述结论,表明幻觉源于缺乏移动头(Yao等人,2024;Yu等人,2024b),而知识冲突源于最后几层中电路竞争失败(Lv等人,2024;Merullo等人,2023b;Hase等人,2023;Ju等人,2024;Jin等人,2024c)。此外,数据量对知识鲁棒性至关重要。具体来说,LLMs可以从大量数据集中系统地学习对世界的综合理解,而后期训练阶段的少量数据可能会损害知识表示的鲁棒性。这一假设得到了许多后期训练失败的证实。例如,SFT加剧了幻觉(Gekhman等人,2024;Kang等人,2024),知识编辑加剧了知识冲突(Li等人,2023c;Yang等人,2024c)。注意,安全问题通常由看不见的数据分布(对抗性输入)引起(Wei等人,2023;Li等人,2024b),这在§6.4中有详细阐述。
备注:LLMs的知识脆弱性可能归因于误用(Ji等人,2024b),但不当学习可能是根本和主要的原因。
5.3 LLMs的暗知识假设?
数据的分布和质量对于知识获取和模型(机器)的稳健运行至关重要。想象一个理想场景,我们可以使用各种数据来训练机器。数据包括所有可能的模态,如文本、图像、音频、视频等。模型也可以相互交互并与外部环境交互。在这个长期发展中,未来智能体是否还会有人类或机器不知道的暗知识?我们假设,未来智能体的智能中仍然会存在暗知识。如图4所示,暗知识描述了人类或机器未知的知识,来自以下三种情况:1)人类不知道而机器知道(UH, KM)。机器利用大量数据探索内部模式,而人类由于数据处理能力和计算限制,难以处理这些数据。(UH, KM)包括基因预测、智能交通系统等。具体来说,蛋白质的三维结构长期以来对人类来说一直是个谜。冷冻电镜通过捕捉数百万张图像,首次揭示了蛋白质的三维结构。现在,神经模型可以高效准确地直接预测蛋白质属性(Pak等人,2023)。2)人类知道而机器不知道(UH, KM)。一方面,一些学者声称机器可以拥有“心理理论”能力(Zhu等人,2024)和情感(Normoyle等人,2024)。另一方面,批评者认为机器缺乏感知能力,只是以概率方式生成标记(Wang等人,2024d)。具体来说,一些抽象知识如饥饿、幸福、孤独等无法通过离散数据点完全表示。上述知识类似于NP-hard问题,也是极其复杂和几乎不可能用当前算法完美建模的。因此,反对者认为,无论机器拥有多少参数,它都无法学习人类已经掌握的所有知识。3)人类不知道且机器不知道(UH, UM)是超出我们认知的。通常,暗知识超出了当前数据和模型架构的范围。(UH, UM)需要人类-机器协作。然而,关于(UH, KM)和(KH, UM)是否会通过模型架构、训练数据和计算资源来解决,还没有明确的结论。注意,图4中人类和机器都知道的普通知识包括明确定义的历史事件、数学定理、物理定律等。
备注:暗知识可能长期存在,需要人类-机器协作来探索。
5.4 如何从跨学科中受益?
LLMs如何通过利用人类在历史上不断探索知识的经验,不断缩小暗知识的边界,实现更高级别的智能?我们从以下跨学科研究中获得灵感。神经科学研究大脑在分子、细胞、神经回路和神经网络层面的结构和功能。通常,LLMs中的机制分析和神经科学都使用观察和干预方法来研究知识学习、记忆、决策、语言、感知和意识的基本原理。人脑的生物信号和LLMs内部的激活信号能够相互转化。得益于神经科学的进步,LLMs的机制分析已经识别出类似的功能神经元和区域,以及知识电路。此外,利用神经科学的可塑性理论,LLMs解释了智能的底层技术支持。在未来,LLMs的机制分析可能会从神经科学中获得灵感,指导下一代人工智能在组织神经框架以及知识存储和利用方面的工作。
认知科学专注于心智及其过程,包括语言、感知、记忆、注意力、推理、情感和心理状态。尽管认知科学和神经科学在研究内容上有重叠,但认知科学更侧重于抽象知识,如心理状态和情感,而不是具体知识。因此,从认知科学中的心理角度,可以追踪LLMs中自我和他人的信念。此外,还观察了多智能体通信和合作中的社会认知技能。通常,从认知科学的视角探索LLMs中的高级认知能力是有潜力的。
心理学是对心智和行为的科学研究,包括意识和无意识现象,以及思想、情感和动机等心理过程。得益于数十年的人类心理学研究,机器心理学旨在通过将LLMs视为心理学实验的参与者来揭示决策和推理的机制。机器心理学可能会深入研究社会情境和互动如何塑造机器行为、态度和信仰的奥秘。此外,群体心理学为探索LLMs(智能体)之间的辩论和协作动态等提供了一个吉祥的途径。例如,认知心理学领域的达宁-克鲁格效应描述了在特定领域能力有限的个体高估自己的能力,反之亦然。这一现象可能指导群体辩论和讨论中的最终投票。有希望的是,学习心理学可以应用于研究提示设计,提高学习效率,改进沟通策略,并为LLMs开发反馈机制。
教育是知识、技能和性格特征的传递,并以多种形式表现。受到人类教育的启发,知识获取在LLMs中被分为三个不同的阶段:识别、联想和掌握。此外,教育教导人类管理各种类型的冲突:识别外部信息中的不一致性(上下文间冲突)、决定外部来源和内部记忆之间的选择(上下文-记忆冲突)、解决记忆混乱(内部记忆冲突)以及解决文化冲突。上述知识冲突和整合也存在于LLMs的个体和群体演化过程中。幸运的是,教育使人类学会学习。LLMs是否也可以自我演化,以不断适应社会变化和需求?
备注:LLMs可能通过从神经科学中汲取灵感来改进其知识学习、存储和表达的架构和机制。此外,认知科学和心理学为LLMs进化中的复杂智能、新兴能力和行为提供了有希望的替代方案。教育研究可以启发LLMs的学习策略,在演化过程中导航冲突和整合知识。
6 未来方向
6.1 参数化知识与非参数化知识
LLMs可以被概念化为参数化知识库,其中模型的参数——通常是神经网络的权重——编码了世界知识的表示。这种参数化知识存储的方法意味着知识隐式地嵌入在模型的架构中,并且可以通过神经网络的计算过程检索和操作。相比之下,非参数化知识存储涉及知识被显式表示并且可以直接访问的方法。非参数化知识存储的例子包括知识图谱、数据库和符号推理系统,其中知识被表示为离散的符号或事实。参数化知识使LLMs能够深度压缩和整合信息,允许它们在各种情境中泛化和应用这些知识。这类似于LLMs通过参数化知识掌握“模”的数学运算规则,使它们能够泛化并无缝解决所有与模相关的问题。相反,非参数化知识需要在知识空间中进行广泛的搜索以响应每个用户查询。随后,也证明了非参数化知识在复杂推理任务中严重失败,准确度接近随机猜测。不幸的是,LLMs中的参数化知识是不透明的,经常遇到可解释性问题、过时信息、幻觉和安全问题等挑战。解决这些问题通常需要利用外部非参数化知识,这提供了透明度、灵活性、适应性和易于操作。然而,由于检索准确性、上下文长度和资源限制,将参数化知识与非参数化知识结合在LLMs中(Yang等人,2024b;Luo等人,2023;Wen等人,2023;Ko等人,2024)仍然是一个持续的挑战。此外,同时从长上下文中检索相关信息并进行推理在“干草堆中推理”的实验中几乎是不可能的。同样,增强非参数化知识——要么从LLM的参数化知识中提取知识,要么直接使用它解析文本——也面临着重大挑战。此外,提出了一种新的显式记忆,它介于参数化和非参数化知识之间。具有显式记忆的LLM享有更小的参数尺寸和更低的检索外部非参数化知识的资源消耗。通常,受到LLMs中知识机制分析的启发,我们有潜力为组织LLMs内部知识开发更多的架构和学习策略。这些高效的LLMs正在朝着更低的GPU、计算和存储资源需求以及更小的模型尺寸发展,结合了参数化和非参数化知识的优势。
6.2 具身智能
当前的LLM还不能被视为真正的智能生物。人类语言习得过程不仅仅是一个被动的听语言的过程。相反,它是一个主动和交互的过程,涉及到与物理世界的互动和与他人的交流。为了增强当前LLM的能力并将其转变为强大的智能体,有必要使其能够从多模态信息中学习并与环境和人类进行交互。
多模态LLMs。多模态的整合是LLMs和具身AI领域的一个关键挑战。虽然LLMs在处理语言数据时展示了令人印象深刻的能力,但它们将来自其他模态的信息(如图像、语音和视频)无缝整合和综合的能力仍然是一个活跃的研究领域。然而,当前的多模态模型面临着挑战,特别是在需要理解和整合文本和图像信息的复杂推理任务中。这些发现表明,当前模型通常优先考虑语言信息,未能充分利用多模态数据的协同潜力。有一些开创性的尝试,旨在揭示多模态模型存储和检索信息的机制。尽管取得了这些进展,但仍需要进一步探索以加深我们对多模态知识存储的理解。
自我演化。正如前一部分所讨论的,当前的语言模型主要基于调优来获取知识,这需要大量的训练和高质量的数据。这些学习是被动的,而作为人类,演化通常也经历了交流和互动。作为一个智能体,模型应该能够通过互动自学,自发地学习。最近,一些工作尝试使模型自行学习或通过与环境的交互学习。通过整合自我演化机制,模型可以不断更新它们的知识库并提高它们的理解,而不完全依赖于手动策划的数据集。这不仅减少了对大规模标记数据的依赖,还允许模型随着时间的推移适应不断演变的语言规范和文化背景。
6.3 领域LLMs
通用LLMs的成功确实激发了针对特定知识领域量身定制的模型的开发,例如生物医学、金融、地球科学、海洋科学等。然而,与人类语言不同,这些不同领域的知识具有特定的特征。目前尚不清楚LLMs是否能够获得复杂的科学知识,或者这些知识是否仍然处于当前暗知识领域。此外,领域特定的知识(如数学)是否与文本知识具有相同的潜在机制,或者它是否表现出更复杂的知识获取机制?目前,对这些领域特定知识的机制研究相对缺乏,人们越来越认识到发展对这些机制更深入的理解的重要性。领域特定模型中的数据稀疏性和多样性提出了另一个挑战。稀疏性通常是由专业领域的保密性、隐私性和获取成本造成的。至于多样性,知识的表现在不同领域中有所不同。例如,在生物医学领域,知识包括复杂的生物学概念,如蛋白质和分子的结构和功能。这要求模型整合超出自然语言的理解,通常涉及图形表示,如化学结构,这些不能直接用文本表达。同样,在金融和法律等领域,模型必须基于领域特定知识进行复杂的推理和决策过程。因此,为领域特定模型收集高质量数据(包括合成数据生成)和有效地将领域知识嵌入LLMs的关键任务需要立即关注。
6.4 值得信赖的LLMs
深入研究了LLM的安全性,并揭示了越狱成功主要是由于恶意攻击和训练数据之间的分布差异。进一步发现,LLMs中的一些参数,称为有毒区域,与生成有毒内容内在相关。甚至推测LLMs抵抗对齐。因此,传统的对齐方法,如DPO和SFT,似乎只是绕过了有毒区域,使它们容易受到其他越狱攻击。受到LLMs中知识机制的启发,一个有希望的值得信赖的策略可能是在预训练阶段设计架构和训练过程,以鼓励单义性和稀疏性,这使得逆向工程过程更加可行。然而,保持大量世界知识的稀疏性需要大量资源,单义架构是否可以支持高级智能仍然不清楚。此外,机器非学习旨在忘记LLMs学到的隐私或有毒信息。然而,这些非学习方法遭受过拟合,忘记了一些有价值的东西。另一种替代技术是知识编辑,在后训练阶段使用少数实例精确修改LLMs。广泛的实验表明,知识编辑有潜力为LLMs解毒。具体来说,停用了与隐私信息和有毒标记相关的神经元。然而,知识编辑也引入了副作用,如修改后的知识无法泛化到多跳任务以及可能损害模型的一般能力。因此,最近的努力旨在在推理阶段而不是编辑LLMs的参数来操作LLMs的中间表示。这些表示可以跟踪和解决与安全相关的广泛问题,包括诚实、无害和追求权力。后来,微调表示以更新LLMs中的新知识。然而,微调表示需要为每个任务分别进行细致的超参数调整,需要高效匹配计算或时间的超参数调整策略。
7 结论
在本文中,我们提出了一个新的知识机制分析分类法,并回顾了知识演化。我们进一步讨论了知识利用问题,以及尚未探索的暗知识。我们希望这些见解可以激发未来研究的一些有希望的方向,并为更强大和值得信赖的模型提供启示。