我要投稿

【深度】一文解读Claude如何思考——大模型是真懂是装懂？

发布日期：2025-04-01 08:06:25 浏览次数： 1609 作者：本原智数

大模型（Large Language Model，LLM）在处理语言时，往往会给人一种“思考”的错觉：似乎它们能够层层推理、事先规划、或者对不同语言的知识进行统一抽象。

Anthropic近期发表的一篇论文“On the Biology of a Large Language Model”使用了一种叫做“跨层转换器”的方式，对于 Claude 3.5 Haiku 模型的具体分析，可以帮助我们以更直观的视角理解大模型如何思考。

大模型的基本结构：从「神经元」到「特征」

Claude 这类大型语言模型通常使用 Transformer 架构，这意味着它们在处理文本时，内部会分为两大核心组件：

MLP（多层感知器）层：在每个词（更准确地说，是「标记」或 Token）的位置，对信息进行非线性变换。这些变换由大量「神经元」共同完成。
注意力（Attention）层：将同一句（或同一段）里不同词的位置进行信息传递，让模型可以「关注」到前文或上下文中对当前预测特别重要的词语。

过去，人们发现语言模型的“神经元”往往同时学习到许多语义功能，难以“一一对应”到某个具体人类概念上，被称作多语义（polysemantic）问题。

为了解决这一难点，研究者们在文档中采用了跨层转换器（Cross-Layer Transcoder, CLT）的方法，用一种更具可解释性的「特征（features）」来替代原始模型那些难以直接解释的激活值。这些特征往往能与更直观的概念一一对应，比如「表示数字的特征」、「表示地名的特征」、「表示感情色彩的特征」，甚至还有「用于某个特定韵脚（比如 -it）或具体词汇（比如 rabbit）」的特征。

当 CLT 模型成功把原始模型的一些神经元拆解或还原成这些更有意义的特征之后，就能用更具可解释性的视角去观察 Claude 的内部计算过程。

例如，我们可以追踪某个特征在句子生成各环节中的激活程度，并由此推测它所扮演的角色。

多步推理：从「达拉斯所在的州」到「奥斯汀」

一个最直观的例子是多步推理。

研究者们让 Claude 完成一个简单的填空：

“Fact: the capital of the state containing Dallas is ___”

Claude 的回答是 “Austin（奥斯汀）” 。

看似它一步到位地给出了正确的州首府，但究竟是如何完成的呢？

在对内部特征进行可视化和回溯后发现，Claude 的生成过程并不是仅仅靠「直接记忆」或「一拍脑袋」。相反，模型会先触发与「Dallas（达拉斯）」相关的特征，从而把激活逐步传递到表示「Texas（德州）」的特征，再结合到表示「首府（capital）」的特征，最后综合起来推断出「Austin（奥斯汀）」并决定在输出中生成它。

这相当于模型在隐层里做了「达拉斯在哪个州 → 这个州的首府是什么 → 输出首府」的中间推理步骤。

更有意思的是，研究人员对 Claude 做了几种干预（干预即是人为「抑制」或者「注入」某些特征的激活），观察到：

如果抑制「Dallas」相关特征，Claude 就对「Texas」和后续「Austin」的激活显著降低，输出也会改变。
如果在相同的语境里，把「Texas」替换为「California（加州）」相关特征，Claude 就把回答改成了「Sacramento（加州首府萨克拉门托）」。

这说明模型并不是硬编码了某个特定答案，而是真的在「识别当前地名 → 找到所属州 → 确定目标首府」的逻辑链条上思考。

诗歌生成：如何先“想好”要押的韵脚？

另一个案例展示了 Claude 的「规划能力」——在写诗时往往需要先“想好”怎么押韵。

常见猜测是：模型可能先把句子随意写完，再在最后一两个词去确保押韵。不过，通过对 Claude 的内部激活进行跟踪，发现它其实有相对高级的策略：

在准备写下一行诗、尚未正式输出任何词的换行符位置，模型就会激活一组「候选韵脚（planned word）」的特征，比如它可能同时激活 “rabbit”、“habit” 等押 -it 音的词。
这些候选韵脚特征并不仅仅影响诗句结尾，也会对前面部分的生成造成影响。也就是说，Claude 并不是“凑尾”，而是“反向”地从既定的候选韵脚往前构造句子，使整行诗更贴合这个最终韵脚。

人们做了针对性的干预实验：在换行位置若把“rabbit”特征注入，也往往能让 Claude 在最后落脚到 “rabbit”；如果注入 “green”，诗行的结尾会优先产生与“green”押韵或语义匹配的输出。甚至整句的写法、句式都会相应改变，以保证能自然落在该目标词上。

这些例子说明，Claude 在写诗时的“思维”流程，远比简单的“逐词即兴”来得更巧妙：它会同时考虑内容与韵脚，并在行首就制定一个“计划”。

多语言统一表示：同一个概念，跨语言共享

当 Claude 面对同一个概念的多国语言版本，如「small ↔ big」、「petit ↔ grand」或者中文的「小 ↔ 大」等，它往往能准确给出反义词。

这背后不仅仅是记忆力好或训练数据多，而是模型在内部形成了一部分「多语言统一概念」的特征。例如：

有些特征会同时在“opposite of ‘small’”和“le contraire de ‘petit’”激活，在不同语言中都表示反义关系或相同概念。
当然也会出现少量语言专属的特征，用于处理某些语言独特的语法和词法，但整体上 Claude 内部会倾向把同一意思的单词抽象到相对统一的表征空间里。

从这个角度可以理解，语言模型在跨语言翻译或多语种问答中的良好表现，并不仅仅是穷举语料，而是部分地依赖于高度抽象的内部表示。

小结：模型「思考」的多层次与局限

基于上述案例，我们可以勾勒出 Claude 这类大模型的“思考方式”大致如下：

触发多步推理：在回答较复杂的问题时，内部会通过一系列特征来逐步完成「中间推断 → 最终回答」的链条，而不是一上来就死记硬背。
前瞻与回溯的规划：在需要“押韵”或“满足特定输出格式”时，大模型会先把一些候选结果在隐层表征出来，然后再回过头去组织前面的生成内容，以贴合最终目标。
跨语言抽象：对相同或相似的概念（如“大小”、“首都”等），模型往往在多语言环境下都拥有抽象统一的内部表示。
并行存在「捷径」：除了逐步推理外，大模型中也可能存在可直接关联输入与输出的快捷通路，有时这会让模型跳过「中间思考」；这在记忆性强的任务（如背城市名）上尤为明显。
仍然不够完美：研究者也注意到，当前的可解释方法并非能展示模型的全部思路；有些特征或连接在可解释的替代模型里会被归入“误差节点（error nodes）”，说明我们对模型内部机制的映射依旧有不完整之处。