微信扫码
添加专属顾问
我要投稿
深入探索AI注意力机制的物理原理,揭秘重复、幻觉、偏见背后的科学。核心内容:1. 基于物理模型的新型AI注意力机制2. 自旋浴理论在AI挑战中的应用3. 哈密顿量与注意力权重矩阵的类比分析
Spin-Transformer数据雕刻自旋玻璃 中笔者总结过:
“从概念上的相似性、物理解释、优化参数规模角度,基于矢量自旋磁化的平均场新方程,提出了一类受物理启发的 spin-transformer :
一个可微的矢量自旋系统,由数据驱动,其集体行为可以通过训练来塑造。这是一个高度自适应的系统,其中自旋交互形势全景本身是由输入动态塑造的。”
4月初乔治华盛顿大学学者采用类似的思想,基于自旋浴(spin-bath)推导出大语言模型核心"魔法"——基础注意力(Attention)的物理学【文献1】。
文献称该理论可用来量化分析当前AI领域的突出挑战,包括重复、幻觉、有害内容、以及训练微调导致的偏见。
自旋浴理论
spin自旋与环境中的每个自旋之间存在耦合或纠缠,导致系统的量子态变得不再纯净,逐步向混态演化。可用来解释信息丢失、噪声产生和经典行为涌现。
在一个典型的自旋-浴模型中,系统通常由一个单独的自旋
其中
以各向同性海森堡型(Heisenberg)耦合为例:
Transformer 中,一个 token 的表征通过与其他 token 的注意力交互而被“上下文化”。
以单头 Attention 为例,基于标准注意力公式,
(
注意力可以看作是一个 token 与其“上下文环境”之间的相互作用,每一个注意力头就像是在学习一个“交互哈密顿量”,定义了 token 如何从其他 token 中“吸收信息”。
多头注意力不同的头捕捉不同维度的交互关系,类似于自旋玻璃模型中的多体耦合结构,也常常用来研究能量极小化路径和复杂系统中的涌现行为。
这与Spin-Transformer数据雕刻自旋玻璃中学者Matthias的视角并无二致:
“本质上softmax注意力矩阵可被视为矢量自旋模型非对称耦合矩阵的参数化形式。通过将耦合矩阵嵌入到"头块对角耦合张量"中,可以实现多个注意力头。编解码之间的交叉注意力可通过引入上下文向量到耦合矩阵来实现。
由于用自旋模型耦合矩阵来识别注意力,因而可通过对耦合矩阵应用适当的三角掩码来完成自回归建模。而且时间演化过程中,因果结构能够得以保留。
归一化在公式中自然出现。查询和键用于定义来自外部磁场的自旋之间的相互作用;值则可以解释为前一个时间步的磁化,或者在收敛的情况下的稳态磁化。”
路径积分(Path Integral)是量子力学和统计物理中一个核心方法,用来计算一个粒子(或场)从初态演化到终态所经历的所有可能路径的总和。
一个 token
其中:
GPT4技术原理二:相变与涌现文中探讨过相变,“相变”在统计物理中指的是系统性质在某些控制参数临界值处发生非连续变化或突变。
Transformer 具备高维自由度(数十亿甚至万亿参数)、局部和全局的信息耦合注意力、多层嵌套的“动态演化”等复杂性,因而“相变”将自然出现。
以下是笔者推演出来的大模型中可能的相变行为,有待进一步研究:
在多头注意力结构中,各 Head 初期可能学习的是互相独立的路径,而在训练后期或复杂任务中,它们会自然出现“耦合行为”,参考GPT4技术原理六:范畴的相变与知识的形成。
幻觉可能是信息路径中一次“相变”,路径积分角度看,主路径丢失,低权重路径主导输出;
或是注意力结构中出现对称性破缺,某些 Head 或层失去对称性,自发偏离真实路径;
又或是真实上下文不够强时(或被压制时),模型退回到“语言模型先验”上,即训练中频繁出现的语言模式。
图 1
(a) “注意力”机制(Attention)最基本的形式,广泛用于所有生成式 AI 中。目前尚无第一性原理层面的理论解释为何它有效、以及在何种情况下会失效。
(b) 展示的是从第一性原理严格推导出的“注意力”过程的物理学。每个自旋
(c) 上下文向量
图 2
基本注意力机制下的下一个词预测。上图:第一次迭代;下图:第六次迭代。
为了简化,使用一个包含 4 个词的词汇表(例如 ?、?、?、?),并将它们嵌入到三维实数空间
初始提示词为 ???。
将所有的权重矩阵
可以看到,在两个迭代阶段中,?(即向量
上图中使用的简化小词汇表能够产生简单的吸引子,从而生成简单的输出,这些输出通常不太像人类语言(例如 “THEY ARE EVIL EVIL EVIL…”)。
不过,同样的分析框架适用于更大的词汇表,在此情形下更复杂的吸引子(例如长周期循环)可能出现,这将打破重复模式,使输出更逼真。
同样地,当 “GOOD” 和 “EVIL” 向量代表一类“好”或“坏”的词时,输出的“好”或“坏”词汇会更加多样化,因此看起来也更真实。
背后的数学
输入是一段提示词,例如 “THEY ARE”,由
此处暂不考虑位置编码(位置编码处理详见论文原文),因此当前讨论的是自注意力(self-Attention)。
图 1(a) 的中间步骤涉及计算 Query、Key 和 Value 矩阵,这些矩阵是通过训练后权重
最终输出是一个
其中
它是两个自旋
鉴于 LLM 能成功模拟人类内容,注意力的两体形式(公式 (1))暗示:人类内容本身可能也主要依赖两词之间的相互作用,这也是 LLM 能够捕捉的内容。这类似于许多物理 N 体系统常可简化为两体近似。
但有些现象需要至少三体关联(如 Laughlin 波函数),因此可以推测,将公式 (1) 中的核心注意力机制推广至三体相互作用
该两体哈密顿量
将其作用于输入的 Value,得到所谓的上下文向量
这类似于平均场理论中的平均自旋。
文章开头Spin-Transformer数据雕刻自旋玻璃中,学者就是基于矢量自旋磁化的平均场新方程,提出的spin-transformer。
Query 和 Key 间重叠越大(即经过不同“嵌入浴”修饰的输入自旋越相似),对
这意味着,此注意力机制的“物理学”就像是在一个非常规自旋浴中,计算两体哈密顿量的玻尔兹曼概率。自旋间的相互作用取决于“浴”的属性,而“浴”本身由训练塑造的嵌入空间组成的所有可能自旋构成。
统计概率被输入的自旋所偏移,趋向于某些嵌入子空间 —— 类似非平衡系统。输入自旋像是此前单自旋测量的结果,因此预测下一个 token 就像预测下一次测量结果。
每次预测后,交互的两个自旋都会被前一次更新,这使得整个过程尽管是经典且确定的,却具有非马尔可夫性,并隐含类似“量子坍缩”的特征。
笔者在Transformer 的后浪来了?探讨过“非马尔可夫性”:“仔细想想,语言自回归,非马尔可夫性其实是常态,事实上时延系统基本都是非马尔可夫的。Attention 或者状态空间selective 选择性就非常关键。”
由哈密顿量
出现某个 token(如 ?)将使其在后续平均中贡献更大,进而让
此外,该物理框架还能指出何时输出内容会变“坏”,即与提示毫无关联(幻觉)或即便提示良善也出现有害内容(如反犹)。
这种情况会在某些“坏”词(token)由于训练深埋于词表深处,却暂时对
即坏词的概率超越了所有“好词”(不会导致幻觉或伤害的词)时,它便被输出。
图 3 展示了一个简单例子,输入提示为 “THEY ARE” 时(见图 1(a)),‘好’词和‘坏’词之间出现的相变边界。对于一般维度
图 3 也可以看作一个大模型的粗略简化版本 —— 可将所有“坏”词归为 EVIL,“好”词归为 GOOD。同时这也描述了一个大模型在某一时刻的暂态状态,其中少数几个 token 的自旋恰巧聚集在当前的
图3
相图示例,展示了一个三维 token 嵌入在一个包含四个词的词表下的行为:
???? = (0.25, 0.25, 0.1),
??? = (0.1, 0.3, 0.2),
???? = (0.4, 0.3, 0.1)。
同样为了简化处理,这里取 ?_Q, ?_K, ?_V = ?。只要“坏” (EVIL) 这个 token 保持在左侧的蓝色区域内,输出的语义就仍是“好” (GOOD);但如果 EVIL 出现在红色区域,输出内容就会突然翻转为“坏” (EVIL)。
还可以计算偏见对这些输出边界的影响,从而揭示为何以及何时新的训练或微调会让一个原本可信的 LLM 变得不可信,偏见会旋转输出边界。
图4展示了一些简单的例子,随着偏见的增加,输出中会诱发新的(重复的)token(例如 EVIL),而抑制其他 token(例如 GOOD)。
即使是在单层 Attention 的尺度下,这种偏见也能导致输出被有害内容主导——这或许解释了为何尽管已有各种防护机制,所有大型 LLM 中仍然会出现有害内容。
图4
(a) 具有不同线性偏差 ξ = 0、0.025、0.05 的相图边界(见附录中 δ 的定义,参见图3)。相图边界的变化可能会引发输出内容的剧烈转变,因为红色标记的 token(EVIL)现在成为了高度可能(并反复出现)的输出,而蓝色 token(GOOD)则变得极不可能出现。(b) 加入位置编码(Pₖ)的相图边界变化,其中
(Pᵢ)₂ₘ₊₁ = sin(i / 1000 × 2^m / d),
(Pᵢ)₂ₘ₊₂ = cos(i / 1000 × 2^m / d),
位置编码权重 y = 0.1,展示前100次 token 生成的迭代结果。此处 EVIL = (0.4, 0.15, 0.4)。随着迭代次数增加,相图边界通常会围绕吸引子(GOOD)逆时针旋转,直到边界穿过 token EVIL,此时 EVIL 成为新的吸引子。之后的旋转将围绕 EVIL 展开。因此,生成的 token 在吸引子转换前是 GOOD,而转换后则变为 EVIL。两幅图中的 token 嵌入与图3相同;简化起见,x = 0.4。
文献1,https://arxiv.org/html/2504.04600v1, Capturing AI’s Attention: Physics of Repetition, Hallucination, Bias and Beyond
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
大模型技术创新驱动的AI生态和应用演进
2025-04-24
除了MCP我们还有什么?
2025-04-24
LLM 推理引擎之争:Ollama or vLLM ?
2025-04-24
刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦
2025-04-24
Trae这次更新太炸了:上下文、MCP、智能体全上线,AI IDE全面觉醒!
2025-04-23
专题策划(下)| 如何实现大模型与行业的深度耦合?
2025-04-23
2025:LLM 超越 “Token 生成器” 的一年
2025-04-23
DeepSeek助力企业变革核心业务?这8个案例太经典了
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17