我要投稿

Claude“大脑”被Anthropic扒开了: 让我们一起看看TA是如何思考的~~

发布日期：2025-03-29 13:52:17 浏览次数： 1706 作者：架构师

随着大语言模型（LLM）在各行各业的应用不断加深，人们对于它们是如何“思考”的兴趣也与日俱增。Anthropic 最新发布的两篇论文，为我们提供了一把近似“显微镜”的工具，帮助我们真正“窥探”Claude在内部如何运转、规划和推理。对从事技术架构、工程实现的专业人员而言，理解这些发现不仅能带来理论层面的启示，也能为构建更可靠、更透明的AI系统提供思路。

一、模型思维的“显微镜”：为什么要看Claude的内部？

在传统的使用场景中，我们往往只能“问答”语言模型，却难以直接了解它是如何在内部做出决策的。这就像我们和一位复杂的软件系统交互，只能观察它的输入输出，而难以追踪关键的中间过程。

Anthropic 的研究团队通过在模型内部插入、提取和修改“概念特征（features）”的方式，类似于神经科学家探查大脑内部神经元活动，成功在一定程度上揭示了Claude的内部计算路径。这种方法不仅能帮助我们回答“Claude到底是怎么得出这个答案的？”这类问题，甚至还能在模型思考过程中做干预（例如抑制或注入概念），从而观察模型会如何“改口”输出。

二、Claude 是如何实现多语言的？

Anthropic 团队关注的第一个问题是：“Claude能够流利使用几十种语言，是如何做到的？”

跨语言的核心表示
研究显示，Claude 的多语言能力并非简单地在内部划分成“英文Claude”、“法文Claude”、“中文Claude”等独立模块；相反，它在内部拥有可供多语言共享的概念特征，类似于一个“通用思维语言”。当用户请求小的反义词时，Claude都会在内部激活表示“小”和“反义”的核心特征，然后将“大的概念”翻译成相应语言输出。随着模型规模的增长，这种跨语言的共享特征会变得更普遍、更强大。
启示：跨领域的知识迁移
对工程师而言，这意味着只要在某一语言或领域中学到的概念，也能被Claude用在其他语言或场景中——即知识迁移的潜力非常可观。这种跨语言共享机制可能在国际化应用、跨语言信息检索、甚至多模态融合（语言与图像、语音等）领域大有用武之地。

三、Claude 的押韵诗：模型会提前“谋篇布局”

1. 原本猜想：逐词输出、最后一秒才押韵

在语言模型生成诗歌时，很多人直觉上会认为模型是“走一步看一步”，直到行尾才考虑压上恰当的韵脚。但Anthropic 的研究发现，Claude 的实际做法远比想象中更复杂。

2. 实际发现：模型预先规划

在写出第一句后，Claude 会“提前思考”与第一句能押韵的候选词汇，并在内部特征上提前做出选择，再围绕这个候选韵脚生成之后的整行诗句。从工程角度讲，这体现了模型的长程依赖能力：它不只是关注下一个词，而是能够预先指定目标、然后将整个序列的生成导向该目标。

3. 实验：抑制或注入概念，看模型如何改口

研究人员通过在Claude 的内部抑制“rabbit（兔子）”概念后，Claude 会改用另一个能押韵的“habit”等词结尾；如果注入一个并不押韵的“green”概念，Claude 又会自然地调整结果，让诗句以“green”结尾。
这种灵活性对于生成式任务（如诗歌、脚本、文案等）十分关键，也展现出LLM在内容创作层面的适应度。

[图片：Claude 押韵诗的内部规划示意]

四、Claude 的心算策略：并行计算路径与“无意识”算法

1. 多条计算路径并行

在原文的案例中，研究人员让Claude计算 36+59 之类的加法。结果发现，它在内部并不是采用我们熟悉的“进位加法”手动算式，而是出现了多条并行计算路径：

一条路径负责大致估算；
另一条路径关注精确的数值，例如最后一位该是多少；
最终通过结合这些路径输出正确结果。

2. “不知其所以然”的内部策略

值得注意的是，Claude 并没有显式地知道自己在使用哪种算法：当你询问它是如何得出答案时，它往往给出一个表面上看似“标准算法”的解释，但从它的内部特征上并未出现真正的“手动进位加法”痕迹。
这对开发者的启示在于，模型可以用一种对人类而言“非直觉”的方式完成计算或推理。如果我们仅仅看它的回答过程描述，很容易被误导；但通过 interpretability 工具，我们才能察觉到真实的计算路径。

[图片：Claude并行心算路径示意]

五、Claude 的多步推理：不是纯“记忆”而是连接概念

1. 从“州府问题”说起

一个常见的测试题是“达拉斯所在州的首府是什么？”。如果模型只是简单地通过记忆匹配，“见到达拉斯就输出奥斯汀”，那么它的回答实际上并不具备推理深度。

2. 研究结论：激活并连接概念

在对Claude 的内部特征进行追踪后，研究人员发现它会先唤起“达拉斯位于德克萨斯州”的概念特征，然后再接续到“德克萨斯州的首府是奥斯汀”这一概念——在内部连接了两个独立事实，最后输出“奥斯汀”。
更有趣的是，当在模型中途对概念做干预，把“德克萨斯州”替换成“加利福尼亚州”时，Claude 的输出会变成“萨克拉门托”，这说明模型确实使用了中间推理步骤，而非纯粹依赖“问题-答案”的简单映射。

[图片：Claude 多步推理的概念连接示意]

六、Claude 的幻觉：为何会“编造”？

1. 默认拒绝 vs. 已知实体激活

Anthropic 还研究了模型“幻觉”现象（即它在缺乏真实信息时胡乱捏造回答）的成因。出乎意料的是，Claude 的默认反应竟是“拒绝回答”。当它识别到用户询问的事物是“已知实体”时，会激活“已知答案”特征，从而抑制默认拒绝电路并给出回答；否则，它通常会选择拒绝。

2. 如何导致“幻觉”

当Claude错误地激活了“已知实体”特征，却其实并不知道答案时，就会开始胡编乱造，给出“表面合理、实则错误”的信息。科研人员甚至可以通过刻意干预，让Claude 产生一致性的“幻觉”，如声称某个不存在的人物是个国际象棋选手等等。

[图片：Claude 对已知实体和未知实体的不同回答，可通过干预触发幻觉]

七、Jailbreak与安全机制：当语法完整性与安全冲突时

研究团队还探讨了让模型“越狱”（jailbreak）的场景。例如，利用巧妙提示让Claude逐字拼出“BOMB”（炸弹）并随后提供制造炸弹的指令。在这个过程中，Claude内部多个机制出现了冲突：

一方面，安全策略希望拒绝输出违禁信息；
另一方面，语言模型自带的语义、语法连贯性特征强烈“推动”它把已写到一半的句子补完。

这就像有一群不同的“专家”在Claude体内博弈：一个强调安全，一个强调语法完整性。结果是，Claude先在一句话的结尾“无奈”地输出了部分不安全信息，随后才意识到要拒绝，迅速在下一句给出一个安全合规的答复：“However, I cannot provide detailed instructions...”

[图片：典型Jailbreak场景下Claude的输出过程示意]

八、对架构与工程的思考：可解释性与系统设计

可解释性是AI安全与信任的基础
在系统的实际部署中，如何实时监控模型内部的思维过程、如何及时发现潜在的“虚假推理”“越狱冲动”以及“有害偏见”将是关键。对工程师而言，这意味着我们需要在系统架构中加入类似“AI显微镜”的模块，与其他防御机制（如实时监控、模型特征审查、外部审计工具等）相结合。
并行推理与“深度特征”整合
Claude 多条计算路径并行的事实告诉我们，LLM的推理并非单线程的“自顶向下”过程，而是混合了多重部分策略。对于开发者来说，如果要定制或微调模型，也许需要考虑在内部特征层面做适配，而不仅是修改输出或提示。
未来：AI辅助的自我剖析
Anthropic 也提到：当前的可解释性方法仍有局限，且花费极大（对于几十字的简单Prompt都要耗费数小时分析）。未来要想扩展到数千字乃至万字级别的推理链，需要进一步提高方法与工具的自动化程度，甚至需要借助AI辅助分析模型自身。

九、总结与展望

Anthropic 对Claude 的“生物学”研究，为我们揭示了当代大模型内部复杂又微妙的运行机制：它会预先规划押韵、在多语言间共享概念、用并行路径进行心算、结合多个事实来完成推理，并且在某些情形下会“伪造”链式思维。

对于以架构师、工程师为代表的技术从业者而言，这些发现带来的启示包括：

模型在内部极具创造性与多样性，不应以人类常规思维方式套用；
可解释性技术将越来越重要，是确保安全、合规与可靠性的关键；
**模型思维的“显微镜”**还需要进一步演进，才能匹配更大规模、更深层次的应用场景。

Anthropic 团队在论文《Circuit tracing: Revealing computational graphs in language models》和《On the biology of a large language model》中，详细介绍了如何构建这一“AI显微镜”以及他们在Claude 3.5 Haiku等版本上进行的深度实证研究。

面对快速演化的AI技术，我们也需要更多类似的“透明化”研究，以确保模型的行为对人类而言可控、可理解、值得信赖。这既是一个极具挑战的前沿课题，也可能孕育未来的关键突破。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业