我要投稿

大型语言模型使用令人惊讶的简单机制来检索存储的知识

发布日期：2024-09-11 19:18:40 浏览次数： 2001

作者：幻想发生器

微信搜一搜，关注“幻想发生器”

大型语言模型,例如为流行的人工智能聊天机器人ChatGPT提供支持的模型,非常复杂。尽管这些模型正被用作许多领域的工具,如客户支持、代码生成和语言翻译,但科学家们仍然不完全理解它们的工作原理。

为了更好地了解内部运作机制,麻省理工学院和其他地方的研究人员研究了这些庞大的机器学习模型在检索存储知识时所使用的机制。

他们发现了一个令人惊讶的结果:大型语言模型(LLMs)通常使用一个非常简单的线性函数来恢复和解码存储的事实。此外,该模型对类似类型的事实使用相同的解码函数。线性函数是只有两个变量且没有指数的方程,它捕捉了两个变量之间直接的、直线关系。

研究人员表明,通过识别不同事实的线性函数,他们可以探测模型对新主题的了解,以及这些知识在模型中的存储位置。

使用他们开发的估计这些简单函数的技术,研究人员发现,即使模型对提示回答不正确,它通常也已经存储了正确的信息。未来,科学家可以使用这种方法来查找和纠正模型内部的错误信息,这可能会减少模型有时给出不正确或无意义答案的倾向。

"尽管这些模型是非常复杂的、非线性的函数,它们在大量数据上进行训练,很难理解,但有时在它们内部运作着非常简单的机制。这就是其中的一个例子,"电气工程和计算机科学(EECS)研究生、详细阐述这些发现的论文^[1] 的共同第一作者Evan Hernandez说。

Hernandez与东北大学计算机科学研究生Arnab Sharma(共同第一作者)、他的导师Jacob Andreas(EECS副教授和计算机科学与人工智能实验室(CSAIL)成员)、高级作者David Bau(东北大学计算机科学助理教授)以及麻省理工学院、哈佛大学和以色列理工学院的其他人共同撰写了这篇论文。该研究将在国际学习表征会议上发表。

寻找事实

大多数大型语言模型,也称为transformer模型,都是神经网络^[2] 。神经网络松散地基于人脑,包含数十亿个相互连接的节点或神经元,这些节点或神经元被分组成许多层,并对数据进行编码和处理。

存储在transformer中的大部分知识可以表示为连接主题和对象的关系。例如,"Miles Davis演奏小号"是一种将主题Miles Davis与对象小号连接起来的关系。

随着transformer获得更多知识,它会在多个层中存储有关某个主题的额外事实。如果用户询问该主题,模型必须解码最相关的事实来回应查询。

如果有人提示transformer说"Miles Davis演奏..."模型应该回答"小号",而不是"伊利诺伊州"(Miles Davis出生的州)。

"在网络的计算中,必须有一种机制去寻找Miles Davis演奏小号这个事实,然后提取该信息并帮助生成下一个词。我们想要理解这个机制是什么,"Hernandez说。

研究人员设置了一系列实验来探测LLMs,发现尽管它们非常复杂,但模型使用简单的线性函数解码关系信息。每个函数都特定于正在检索的事实类型。

例如,transformer每次想要输出一个人演奏的乐器时都会使用一个解码函数,而每次想要输出一个人出生的州时则使用另一个不同的函数。

研究人员开发了一种估计这些简单函数的方法,然后为47种不同的关系计算了函数,如"国家的首都"和"乐队的主唱"。

虽然可能存在无限数量的可能关系,但研究人员选择研究这个特定的子集,因为它们代表了可以用这种方式写出的事实类型。

他们通过改变主题来测试每个函数,看它是否能恢复正确的对象信息。例如,"国家的首都"函数应该在主题是挪威时检索奥斯陆,在主题是英格兰时检索伦敦。

函数超过60%的时间检索到正确信息,表明transformer中的一些信息是以这种方式编码和检索的。

"但并非所有内容都是线性编码的。对于某些事实,即使模型知道它们并会预测与这些事实一致的文本,我们也找不到它们的线性函数。这表明模型正在做一些更复杂的事情来存储该信息,"他说。

可视化模型的知识

他们还使用这些函数来确定模型对不同主题的真实信念。

在一项实验中,他们从提示"比尔·布拉德利是一个"开始,使用"从事体育运动"和"上过大学"的解码函数来查看模型是否知道布拉德利参议员是一名曾就读普林斯顿大学的篮球运动员。

"我们可以证明,即使模型在生成文本时可能选择关注不同的信息,它确实编码了所有这些信息,"埃尔南德斯说。

他们使用这种探测技术生成了所谓的"属性镜头",这是一个网格,可视化特定关系的具体信息存储在transformer的众多层中的位置。

属性镜头可以自动生成,为研究人员提供了一种简化的方法来更好地了解模型。这种可视化工具可以使科学家和工程师纠正存储的知识,并帮助防止AI聊天机器人提供虚假信息。

未来,埃尔南德斯和他的合作者希望更好地理解事实不是线性存储的情况下会发生什么。他们还想用更大的模型进行实验,并研究线性解码函数的精确度。

"这是一项令人兴奋的工作,揭示了我们对大型语言模型在推理过程中如何回忆事实知识的理解中缺失的一环。先前的工作表明,LLM构建了给定主题的信息丰富的表示,在推理过程中从中提取特定属性。这项工作表明,LLM用于属性提取的复杂非线性计算可以用一个简单的线性函数很好地近似,"特拉维夫大学计算机科学学院的助理教授莫尔·格瓦·皮佩克说,他没有参与这项工作。

这项研究得到了Open Philanthropy、以色列科学基金会和Azrieli基金会早期职业教师奖学金的部分支持。