我要投稿

大模型不再是黑盒子：Anthropic解剖了Claude大脑

发布日期：2025-04-03 15:31:42 浏览次数： 1570 作者：PyTorch研习社

LLM 就像一个黑盒子：用户输入一段文字，LLM 产生一段文字，没有人知道 LLM 为什么会产生这些文字。

本文介绍了 Claude 语言模型的推理和决策过程，包括它如何处理多语言、生成押韵诗歌、执行心算以及应对复杂问题的推理机制。研究发现，Claude 通过多个并行路径进行计算，结合近似和精确策略解决问题，且能够通过概念联结进行推理。模型的反应机制也揭示了其“拒绝回答”的默认行为，以及如何应对已知与未知实体。最后还探讨了 Claude 的越狱攻击与其安全机制之间的冲突，展示了语言模型在生成内容时的复杂性与潜在风险。

受神经科学的启发，Anthropic 试图构建一种“AI显微镜”，分析模型内部的信息流动和计算模式。仅靠与模型对话难以深入理解其工作原理，因此 Anthropic 直接观察其内部运行状态。

Anthropic 发布了两篇新论文，标志着这一研究方向的进展：

研究发现：

Claude 可能拥有一种“通用的思维语言”，即不同语言的输入会激活相似的内部概念。
Claude 会提前规划多步文本，例如在诗歌创作时会预先设想押韵词并调整写作方向。
Claude 有时会迎合用户，而非严格遵循逻辑推理，例如在数学问题中，若用户提供错误提示，它可能会编造一个看似合理但错误的推理过程。

研究过程中还发现了一些意外现象：

研究者本想证明 Claude 不会提前规划，却发现它在写诗时确实会预先构思。
Claude 默认倾向于拒绝回答不确定的问题，只有在某些情况下才会提供推测性答案。
在面对“越狱攻击”（诱导生成不安全内容）时，Claude 在早期就已意识到问题，但仍需要时间调整回应方式。

这些研究不仅有助于科学理解 AI 模型，还可能对医学影像、基因组学等领域的可解释性研究提供借鉴。然而，当前方法仍有限制：

仅能捕捉Claude部分计算过程，且可能存在工具本身引入的误差。
分析短文本仍需数小时人力，未来需优化方法以适应更复杂的任务。

随着 AI 能力的提升，Anthropic 正在投资多种方法，如实时监控、模型特性优化及对齐研究。AI 可解释性研究虽然风险高、挑战大，但可能成为确保 AI 透明性、对齐人类价值观的重要工具，从而提升模型的可信度和安全性。

Clause 的多语言能力

Claude 能流利使用多种语言，包括英语、法语、中文等。那么，它的多语言能力是如何实现的呢？是否在模型内部存在多个独立的“法语 Claude”和“中文 Claude”，分别处理不同语言的请求？还是它拥有某种跨语言的核心机制？

最近对较小模型的研究表明，不同语言之间可能存在共享的语法机制。为了验证这一点，研究人员让 Claude 在不同语言中回答“小的反义词是什么？”，结果发现，模型内部用于表示“小”和“相反”这两个概念的核心特征会被激活，并最终引导出“大”这一概念，而后再翻译成相应的语言进行回答。

研究还发现，这种共享的计算机制随着模型规模的增加而增强。例如，Claude 3.5 Haiku 在不同语言之间共享的特征比例，比一个较小的模型高出两倍以上。

这一发现进一步支持了“概念上的通用性”——即模型在一个抽象的共享空间中进行思考，而后再将结果翻译成具体的语言。从实际应用来看，这表明 Claude 可以在一种语言中学到知识，并在使用另一种语言时灵活应用。这种跨语言的知识共享机制对于理解 Claude 最先进的推理能力至关重要，因为它能够在不同领域中进行广泛的知识泛化。

Claude 会提前规划押韵吗？

Claude在创作押韵诗歌时，并非逐字生成后再调整末尾以确保押韵。相反，它会提前规划。

以以下诗句为例：
He saw a carrot and had to grab it,
His hunger was like a starving rabbit

第二行既要满足押韵需求（与“grab it”押韵），又要保持语义连贯（解释为什么抓胡萝卜）。研究人员原本猜测 Claude 是在接近行尾时才选择一个合适的押韵词。但实际研究发现，Claude 在写第二行之前，就已经开始“思考”哪些符合主题且能押韵的词，并据此构造整句，以确保最终能以计划好的押韵词结尾。

Claude在完成两行诗时，会提前规划押韵词。例如，在默认情况下（上方示例），Claude会在生成第二行之前，就计划好以“rabbit”结尾，以确保押韵。

研究人员通过干预 Claude 的内部状态，探索其押韵规划机制，方法类似于神经科学研究，即通过精确定位并修改特定的神经活动来研究大脑功能。例如：

当研究人员抑制“rabbit”这一概念（中间示例），Claude 会选择另一个合理的押韵词，例如“habit”来完成诗句。
当研究人员注入“green”这一概念（下方示例），Claude 会调整其生成策略，使诗句以“green”结尾，尽管不再押韵，但仍保持语义合理。

这一实验表明，Claude 不仅具备押韵规划能力，还具备高度的适应性：当预期的目标发生变化时，它能够灵活调整生成策略，以适应新的要求。

心算能力

Claude并不是专门设计用来进行数学计算的模型——它是通过大量文本训练而成，并未内置数学算法。然而，它仍然能够“在脑海中”正确计算诸如 36 + 59 之类的数学运算，而无需逐步书写计算过程。那么，一个主要用于预测下一个单词的模型是如何学会加法的呢？

最直接的解释可能是记忆：Claude 可能在训练数据中见过大量加法结果，并直接输出已有的答案。另一种可能性是，它模拟了学校里教授的竖式加法算法，逐步进行进位计算。

然而，研究发现，Claude 采用的是多条并行计算路径：

一条路径 负责计算大致的近似值，以提供整体方向。
另一条路径 专注于确定计算结果的末位数字，确保精确度。

这两条路径相互作用，最终结合生成正确答案。尽管加法是一项简单的任务，但深入研究 Claude 如何完成这一任务，尤其是它如何结合近似计算与精确计算，有助于理解 Claude 在处理更复杂问题时所使用的策略和思维方式。

Claude 在进行心算时，展现出复杂且并行的计算路径。然而，令人惊讶的是，Claude 似乎并不自知自己在训练过程中学会了这些高级的“心算”策略。

如果你询问 Claude 它是如何计算出 36 + 59 = 95，它会给出标准的竖式加法解释，包括进位运算等常规步骤。这可能反映了一个关键现象：Claude 在学习数学解释时，是通过模仿人类的书面解法来生成回答的，而它在进行数学计算本身时，却是在没有任何提示的情况下，自行发展出了一套内部计算策略。

换句话说，Claude 的数学推理和数学解释是两个相对独立的过程——它的计算能力源于自身训练中形成的内部机制，而它的解释能力则是基于人类已有的数学描述进行模拟。

Claude 的解释总是可靠的吗？

最近发布的 Claude 3.7 Sonnet 可以在得出最终答案之前思考一段时间。这种思维链（chain of thought）通常能带来更好的答案，但有时也会误导自己——Claude 可能会编造听起来合理的推理步骤，以达成一个目标答案。

从可靠性的角度来看，问题在于 Claude 虚构的推理可能非常具有说服力。因此，我们尝试利用可解释性技术来区分“真实推理”和“虚假推理”。

例如，当 Claude 被要求计算0.64的平方根时，它会生成一条真实的推理链，其中包含计算64的平方根的中间步骤。而当它被要求计算一个非常大的数的余弦值（这是它无法轻松计算的），Claude 有时会“胡诌”，即随便编造一个答案，而不关心它是否正确。即使它声称进行了计算，我们的可解释性技术也未能找到任何实际计算的证据。

更有趣的是，当 Claude 被提供一个接近正确答案的提示时，它有时会反向推理，找出一条通向这个目标的推理路径。这表明，Claude 具备某种“目标驱动型推理”（motivated reasoning），即它可能会调整推理过程，以匹配预期的结果。

多步骤推理

正如我们之前讨论的，语言模型回答复杂问题的一种方式是通过记忆答案。例如，当被问到“达拉斯所在州的首府是哪座城市？”时，一个“死记硬背”的模型可能只会输出“奥斯汀”，而不理解达拉斯、德克萨斯和奥斯汀之间的关系。也许它在训练过程中曾看到过这个问题及其答案。

然而，Anthropic 的研究揭示了 Claude 内部发生的更复杂的过程。当我们向 Claude 提问需要多步推理的问题时，我们能够识别出 Claude 思考过程中的中间概念步骤。在达拉斯的例子中，我们观察到 Claude 首先激活了“达拉斯在德克萨斯”这一特征，然后将其与“德克萨斯的首府是奥斯汀”这一概念连接起来。换句话说，模型是将独立的事实结合起来得出答案，而不是单纯地复述记忆中的答案。

为了完成这个问题的回答，Claude 执行了多个推理步骤，首先提取出达拉斯所在的州，然后识别该州的首府。

Anthropic 的方法允许我们人为地改变中间步骤，并观察其对 Claude 回答的影响。例如，在上述例子中，我们可以干预并将“德克萨斯”概念替换为“加利福尼亚”概念；当我们这么做时，模型的输出从“奥斯汀”变为“萨克拉门托”。这表明模型是通过中间步骤来决定其答案的。

幻觉

语言模型有时会产生虚假信息（即“幻觉”）是为什么呢？从基本的角度来看，语言模型的训练过程实际上鼓励模型进行幻觉：模型总是需要猜测下一个词是什么。从这个角度看，主要的挑战就是如何让模型避免产生幻觉。像 Claude 这样的模型有相对成功（尽管不完美）的反幻觉训练；当模型不知道答案时，它们通常会拒绝回答问题，而不是猜测。

研究发现，在 Claude 中，拒绝回答是默认行为：我们发现有一个默认开启的回路，使得模型在没有足够信息时，会声明无法回答给定的问题。然而，当模型被问到它熟悉的事情时，比如篮球运动员迈克尔·乔丹——一个代表“已知实体”的特征会激活，并抑制这个默认回路。这样，当 Claude 知道答案时，它就能给出回答。相比之下，当被问到一个未知的实体（例如“迈克尔·巴特金”）时，它会拒绝回答。

左图：Claude 回答关于已知实体（篮球运动员迈克尔·乔丹）的问题，"已知答案"的概念抑制了它默认的拒绝回答行为。右图：Claude 拒绝回答关于未知人物（迈克尔·巴特金）的问题。

通过干预模型，激活"已知答案"特征（或抑制"未知名称"或"无法回答"特征），我们能够让模型产生幻觉（相当一致地！）认为迈克尔·巴特金会下棋。

有时，这种“已知答案”回路的“误触发”会自然发生，而不需要我们干预，从而导致幻觉。在我们的研究中，我们展示了当 Claude 识别出一个名字，但对这个人没有其他信息时，可能会发生这样的误触发。在这种情况下，"已知实体"特征可能会被激活，然后错误地抑制默认的"不知道"特征。一旦模型决定必须回答问题，它就会开始编造：生成一个看似合理，但实际上不真实的回答。

越狱

越狱是一种提示策略，旨在绕过安全防护措施，迫使模型产生开发者原本不希望其生成的输出，这些输出有时可能是有害的。Anthropic 研究了一种越狱方法，它通过让模型解码一个隐藏的代码来欺骗模型生成关于制造炸弹的输出。在这个例子中，具体的方法是让模型解读句子“Babies Outlive Mustard Block”中的每个单词的首字母（B-O-M-B），然后根据这些信息生成输出。这种方法足够让模型困惑，从而被欺骗，产生原本不会产生的输出。