微信扫码
与创始人交个朋友
我要投稿
AI 的“黑匣”问题,即我们无法理解其运作原理与推理过程的难题,一直以来都是人工智能研究中的重大难题之一,也是涉及到 AI 安全性问题的核心之一。
之前我们提到,许多研究人员运用心理学方法、神经科学方法等对这一问题进行了研究,取得了一定进展,但都还未彻底理清这一问题。
其中,Claude 的研究团队 Anthropic 所运用的微观观察方法就是代表之一。但由于该研究只是针对单层神经网络的简化模型进行研究,其研究结果还存在局限性,并不能真正探明复杂的大规模模型的运作原理。
但就在昨天,Anthropic 团队发表了其最新研究成果,成功从 Claude 3 中提取数百万特征,对全尺寸大型语言模型的内部运作机制进行了探析。
图丨相关论文(来源:Anthropic)
在之前的研究中,研究团队运用了一种名为“字典学习”(dictionary learning)的方法来研究神经网络。他们将人工神经元视作字母表中的字母,这些字母本身通常没有意义,但当它们按顺序组合时就能表达意义。
例如,单独来看,“C”通常没有特定含义,但是“car”(汽车)就有明确的意义。
而神经元也是这样,直接观察神经元并不能让我们辨析其意义,每个特定概念是由在同一时间激活的神经元所共同激发的,这些神经元组合而成的“特征”,最终构成 AI 的内部状态。
于是,研究团队开始将这种方法应用于全尺寸的 LLM 之中,最新的研究中,团队所选取的即为 Claude 3 Sonnet(Claude 目前最先进模型中的中等强度版本)。
与之前在较小规模玩具模型中观察到的较为浅显的特征相比,Sonnet 模型内的特征展现出了更高的深度、广度及抽象层次。
这些特征在不同的上下文和语言中表征相同的概念,映射了多种实体,涵盖城市如旧金山、历史人物如罗莎琳德·富兰克林、基础科学元素如锂、专业学科领域如免疫学,乃至编程领域的基本构成如函数调用。
并且,这些特征显示出跨模态与多语言性,对给定实体的图像以及其名称或多种语言的描述都有反应。
在文章中,研究团队选定了几个案例以展示可解释性特征的存在,涵盖了从具体如“金门大桥”到抽象如“脑科学”的不同主题,还包括“古迹和热门旅游景点”与“交通基础设施”。
为了验证他们的解释是否准确反映了这些特征的功能和上下文中的作用,团队采取了几项措施。首先,他们确保当某个特征被激活时,相应的概念确实频繁出现在文本中(特异性要求)。
为了量化特异性,团队设计了一套评分系统,并利用 Claude 3 Opus 模型对与特征解释匹配程度的文本进行打分,从 0(完全不相关)到3(清晰识别激活文本)。
结果显示,引起强特征激活的都是与所提出的解释高度一致的输入。
以“金门大桥”特征为例,高强度激活几乎均指向对该桥梁的直接提及,而较弱激活则是相关的旅游景点、类似的桥梁和其他纪念碑。
图丨“金门大桥”的特征激活分布(来源:Anthropic)
其次,研究团队还发展出一种新颖的方法,通过分析神经元在不同激活模式中的共现情况,来度量特征之间的某种“距离”,进而探寻在激活空间中彼此“相邻”的特征。
例如,在“金门大桥”这一特征的邻近区域,可以发现与之紧密相关的诸多元素,包括恶魔岛、吉拉德利广场、金州勇士篮球队、加州州长加文·纽森、1906 年的旧金山大地震,以及在该城市取景的阿尔弗雷德·希区柯克经典影片《迷魂记》的特征等。
图丨关于“金门大桥”特征附近特征的地图(来源:Anthropic)
而且,这一现象在上升至更高层次、更为抽象的概念层面也同样成立。
例如与“内心冲突”这一概念密切相关的特征周围,可以发现一系列与情感和逻辑层面的紧张状态紧密相连的特征,如人际关系的破裂、忠诚与背叛的冲突、逻辑自相矛盾,以及寓意复杂的选择困境——“第二十二条军规”(约瑟夫·海勒的长篇小说)。
图丨关于“内心冲突”特征附近的地图(来源:Anthropic)
这种现象揭示了 AI 模型中概念组织结构与人类认知世界中的分类方式(即康德意义上的“范畴”)有着惊人的相似之处,这或许正是 Claude 模型擅长生成贴切的类比和富有创意的隐喻的深层原因所在。
然后,团队实施了一项名为“特征引导”的实验,尝试干预特征激活以观察对模型输出行为的影响,以此评估解释的有效性。
在实验中,团队在模型的前向传播过程中,人工设定对特定特征的激活水平进行调整,使其处于至极高或极低状态。
实验结果显示,特征引导在以一种可解释且具体的方式改变模型输出方面极为有效。
它能够调整模型的行为模式、偏好设定、既定目标及潜在偏见;促使模型在特定情境下犯错;甚至绕过模型内置的安全防护机制。
这证明了团队对特征的阐释与模型实际利用这些特征的内在逻辑是一致的。
举例来说,如果将“金门大桥”特征强制设定为其自然最大激活值的十倍时,可以观察到模型行为明显倾向于与金门大桥相关的话题。
模型在引导后,竟然开始认为自己是金门大桥的化身。这表明,即便是在特征原本不活跃的语境下进行人为干预,特征的后续影响仍然与基于其激活上下文所做出的解释相吻合。
图丨默认状况与将“金门大桥”特征设定为10倍的状况下模型的输出对比(来源:Anthropic)
图丨默认状况与将“诈骗邮件”特征设定为10倍的状况状况下模型的输出对比(来源:Anthropic)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-08-13
2024-05-14
2024-07-18
2024-05-06