支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


捕获AI的注意力:重复、幻觉、偏见背后的物理学

发布日期:2025-04-24 06:32:42 浏览次数: 1534 作者:清熙
推荐语

深入探索AI注意力机制的物理原理,揭秘重复、幻觉、偏见背后的科学。

核心内容:
1. 基于物理模型的新型AI注意力机制
2. 自旋浴理论在AI挑战中的应用
3. 哈密顿量与注意力权重矩阵的类比分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

Spin-Transformer数据雕刻自旋玻璃 中笔者总结过:


“从概念上的相似性、物理解释、优化参数规模角度,基于矢量自旋磁化的平均场新方程,提出了一类受物理启发的 spin-transformer 


一个可微的矢量自旋系统,由数据驱动,其集体行为可以通过训练来塑造。这是一个高度自适应的系统,其中自旋交互形势全景本身是由输入动态塑造的。”


图片


4月初乔治华盛顿大学学者采用类似的思想,基于自旋浴(spin-bath)推导出大语言模型核心"魔法"——基础注意力(Attention)的物理学【文献1】。


文献称该理论可用来量化分析当前AI领域的突出挑战,包括重复、幻觉、有害内容、以及训练微调导致的偏见。


自旋浴理论


量子物理中“自旋浴”是形象的比喻,一个用于描述开放量子系统与其环境相互作用的模型,通常包括:


一个自旋系统(spin),处于一堆其他的自旋构成的环境中 —— 即spin周围的原子核,或晶格振动。


A central spin and nanoscale spin bath evolve as a closed system in the ...


spin自旋与环境中的每个自旋之间存在耦合或纠缠,导致系统的量子态变得不再纯净,逐步向混态演化。可用来解释信息丢失、噪声产生和经典行为涌现。


自旋浴理论与大语言模型注意力机制有如下有趣的类比:


每个token可类比为一个自旋,携带信息的基本单元,token 的向量表征(embedding)则是量子态;

token 能“看到”的其他 token 构成了上下文,构成自旋所处的“环境”或“浴”,类似自旋与环境纠缠,token通过注意力与其他token复杂交互;
哈密顿量(Hamiltonian)用来描述自旋与浴之间的相互作用,而注意力权重矩阵定义了 token 的彼此影响。


哈密顿量Attention

在一个典型的自旋-浴模型中,系统通常由一个单独的自旋和多个环境自旋构成,它们之间通过某种相互作用耦合在一起。


系统的总哈密顿量的一般形式:

其中:系统自旋自身的哈密顿量, :浴的哈密顿量, :系统与浴之间的耦合项(最关键的部分)。

以各向同性海森堡型(Heisenberg)耦合为例:


自旋系统状态由它与所有“环境信息”的交互所塑造

Transformer 中,一个 token 的表征通过与其他 token 的注意力交互而被“上下文化”。

以单头 Attention 为例,基于标准注意力公式,

:当前 token 的查询向量(query), :上下文中所有 token 的键向量(keys), :值向量(values):表示 token 与上下文之间的相似度打分矩阵, softmax 提供一种“归一化权重”,用于从 V 中聚合信息),以获得如下类比视角:

注意力可以看作是一个 token 与其“上下文环境”之间的相互作用,每一个注意力头就像是在学习一个“交互哈密顿量”,定义了 token 如何从其他 token 中“吸收信息”。

多头注意力不同的头捕捉不同维度的交互关系,类似于自旋玻璃模型中的多体耦合结构,也常常用来研究能量极小化路径复杂系统中的涌现行为

这与Spin-Transformer数据雕刻自旋玻璃中学者Matthias的视角并无二致:

“本质上softmax注意力矩阵可被视为矢量自旋模型非对称耦合矩阵的参数化形式。通过将耦合矩阵嵌入到"头块对角耦合张量"中,可以实现多个注意力头。编解码之间的交叉注意力可通过引入上下文向量到耦合矩阵来实现。 

由于用自旋模型耦合矩阵来识别注意力,因而可通过对耦合矩阵应用适当的三角掩码来完成自回归建模。而且时间演化过程中,因果结构能够得以保留 

归一化在公式中自然出现。查询和键用于定义来自外部磁场的自旋之间的相互作用;值则可以解释为前一个时间步的磁化,或者在收敛的情况下的稳态磁化。”

Attention 建模为路径积分

路径积分(Path Integral)是量子力学和统计物理中一个核心方法,用来计算一个粒子(或场)从初态演化到终态所经历的所有可能路径的总和。

Transformer 中一个 token 的embedding,可以看作是在所有上下文路径上“传播”或“演化”后的最终结果。每条路径的“重要性”由它的作用量决定。
一个token 的 Attention 过程,可以看作它在一个“高维概率信息空间”中,沿着所有可能的上下文路径传播,其路径权重由 Attention 决定。
高注意力路径代价小,低注意力路径代价大;路径积分自然偏好“高注意力权重”的信息传输路径。
设 token 序列为:, 对于某个 token,我们想建模它与之前所有 token(上下文)之间的所有“路径交互”。

一个 token路径积分表征可以定义如下:

其中::表示一条从起始 token 到当前 token的路径(例如,序列中一个 token 的注意力跳跃轨迹),:路径上的“作用量”,控制路径的重要性,:路径上累积得到的 Value 信息(来自 Attention),:路径空间的测度,表示对所有可能路径求和(类似 softmax over attention paths)

Transformer 中的相变


GPT4技术原理二:相变与涌现文中探讨过相变,“相变”在统计物理中指的是系统性质在某些控制参数临界值处发生非连续变化或突变。


Transformer 具备高维自由度(数十亿甚至万亿参数)、局部和全局的信息耦合注意力、多层嵌套的“动态演化”等复杂性,因而“相变”将自然出现。


以下是笔者推演出来的大模型中可能的相变行为,有待进一步研究:


自旋玻璃中的“熵主导”到“能量主导”转变类似,随着模型的层数增加,或者训练数据分布发生变化,Transformer 中 token 表征的分布可能发生突变。
当模型遇到关键上下文信息变化、输入长度加大或任务范式突变时,Attention 模式会从一种全局聚焦形态跳变到另一种。


在多头注意力结构中,各 Head 初期可能学习的是互相独立的路径,而在训练后期或复杂任务中,它们会自然出现“耦合行为”,参考GPT4技术原理六:范畴的相变与知识的形成


图片


幻觉也是相变?


大模型幻觉是指模型生成了看似合理但实际上不真实或不准确的内容。GPT4技术原理五:大模型的幻觉,解铃还须系铃人笔者梳理过幻觉的来源和控制建议。


幻觉可能是信息路径中一次“相变”,路径积分角度看,主路径丢失,低权重路径主导输出;


或是注意力结构中出现对称性破缺,某些 Head 或层失去对称性,自发偏离真实路径;


又或是真实上下文不够强时(或被压制时),模型退回到“语言模型先验”上,即训练中频繁出现的语言模式。


此种意义下,幻觉不是 bug,而是一种系统性物理现象笔者判断:优化基于范畴的采样是降低大模型幻觉的必由之路
对应本文的视角, 降低幻觉可以采取的措施:
通过引入更多“归一化项”或“路径 regularization”约束路径积分空间;RAG或者微调强化上下文记忆增强信号强度;或控制模型温度缓和或放大幻觉概率。
注意力头的 “物理学”
【文献1】从第一性原理出发,提出了描述基本注意力头的“物理学”,可以用来定量分析当前 AI 所面临的关键挑战,如输出重复、幻觉、有害信息以及偏见。
理论预测与LLM 输出结果一致。“两体”结构揭示了 LLM 为何能够良好运作,若推广为“三体”注意力机制,有可能表现更为卓越。

请参阅标题


图 1

(a) “注意力”机制(Attention)最基本的形式,广泛用于所有生成式 AI 中。目前尚无第一性原理层面的理论解释为何它有效、以及在何种情况下会失效。


(b) 展示的是从第一性原理严格推导出的“注意力”过程的物理学。每个自旋  精确对应于嵌入空间(embedding space)中的一个 token,其结构反映了该 AI(如 LLM)先前的训练过程。图中波浪线表示从公式中自然导出的有效两体相互作用。


(c) 上下文向量  恰好等价于两自旋哈密顿量在“浴”(bath)中的投影形式,该形式被加权集中在包含输入自旋的浴子区域内。该理论预测了偏差(例如来源于预训练或微调)如何扰动 ,从而导致训练后的 LLM 输出被不当内容主导(“坏”的输出如 “THEY ARE EVIL”,相对于“好”的输出)。

Refer to caption

图 2

基本注意力机制下的下一个词预测。上图:第一次迭代;下图:第六次迭代。


为了简化,使用一个包含 4 个词的词汇表(例如 ?、?、?、?),并将它们嵌入到三维实数空间  中:

初始提示词为 ???。


将所有的权重矩阵 设置为单位矩阵,以避免影响注意力机制的核心功能。4 个向量和归一化后的上下文向量被一起绘制在由张成的二维投影平面中。


可以看到,在两个迭代阶段中,?(即向量)都表现出“吸引子”的特性:它在上有最大的投影(见蓝色虚线)。随着迭代次数增加,? 的吸引子状态愈发明显,其与 的对齐程度也随之增强。

上图中使用的简化小词汇表能够产生简单的吸引子,从而生成简单的输出,这些输出通常不太像人类语言(例如 “THEY ARE EVIL EVIL EVIL…”)。

不过,同样的分析框架适用于更大的词汇表,在此情形下更复杂的吸引子(例如长周期循环)可能出现,这将打破重复模式,使输出更逼真。

同样地,当 “GOOD” 和 “EVIL” 向量代表一类“好”或“坏”的词时,输出的“好”或“坏”词汇会更加多样化,因此看起来也更真实。

背后的数学

输入是一段提示词,例如 “THEY ARE”,由  个 token(词)组成。词汇表  中的每一个可能的 token  都被嵌入为一个  维向量(视为“自旋” ,按约定为行向量),因此输入是一组自旋的转置矩阵:


此处暂不考虑位置编码(位置编码处理详见论文原文),因此当前讨论的是自注意力(self-Attention)。


图 1(a) 的中间步骤涉及计算 Query、Key 和 Value 矩阵,这些矩阵是通过训练后权重  将输入自旋 投影到某种偏向特定输出的嵌入空间中所得。


最终输出是一个  的矩阵:


其中 ,这是一个  的矩阵。这个表达形式与如下的“两体哈密顿量”等价:



它是两个自旋    的哈密顿量,相互作用  由高维嵌入空间(即“浴”)所介导,如图 1(b) 所示。

鉴于 LLM 能成功模拟人类内容,注意力的两体形式(公式 (1))暗示:人类内容本身可能也主要依赖两词之间的相互作用,这也是 LLM 能够捕捉的内容。这类似于许多物理 N 体系统常可简化为两体近似。

但有些现象需要至少三体关联(如 Laughlin 波函数),因此可以推测,将公式 (1) 中的核心注意力机制推广至三体相互作用 ,可能会带来更强大的 AI

该两体哈密顿量  接下来会经过 Softmax 运算 ,其物理等价为:一个温度为  的统计系综,其中不同的注意力系统  出现的概率符合玻尔兹曼分布:



将其作用于输入的 Value,得到所谓的上下文向量  补充材料表明:

这类似于平均场理论中的平均自旋。


文章开头Spin-Transformer数据雕刻自旋玻璃中,学者就是基于矢量自旋磁化的平均场新方程,提出的spin-transformer


Query 和 Key 间重叠越大(即经过不同“嵌入浴”修饰的输入自旋越相似),对  的贡献就越大。最后,将  投影到 Value 上并与所有 token 向量  运算,得到每个 token 成为下一个词的概率:



这意味着,此注意力机制的“物理学”就像是在一个非常规自旋浴中,计算两体哈密顿量的玻尔兹曼概率。自旋间的相互作用取决于“浴”的属性,而“浴”本身由训练塑造的嵌入空间组成的所有可能自旋构成。


统计概率被输入的自旋所偏移,趋向于某些嵌入子空间 —— 类似非平衡系统。输入自旋像是此前单自旋测量的结果,因此预测下一个 token 就像预测下一次测量结果。


每次预测后,交互的两个自旋都会被前一次更新,这使得整个过程尽管是经典且确定的,却具有非马尔可夫性,并隐含类似“量子坍缩”的特征。


笔者在Transformer 的后浪来了?探讨过“非马尔可夫性”:“仔细想想,语言自回归,非马尔可夫性其实是常态,事实上时延系统基本都是非马尔可夫的。Attention 或者状态空间selective 选择性就非常关键。”


重复、幻觉、偏见

由哈密顿量  的线性结构可得一个直接后果:输出概率  很容易出现某一词反复出现的“吸引子”现象。尤其当词汇空间有限或训练高度偏倚时,这种现象会更严重。

出现某个 token(如 ?)将使其在后续平均中贡献更大,进而让  更加朝向该方向,从而再次提高生成该 token 的概率。词汇量越小,这种占比效应越明显。图 2 明确展示了这种重复吸引子现象这也正是小模型中经常观察到的重复输出问题

此外,该物理框架还能指出何时输出内容会变“坏”,即与提示毫无关联(幻觉)或即便提示良善也出现有害内容(如反犹)。

这种情况会在某些“坏”词(token)由于训练深埋于词表深处,却暂时对  投影最大时出现(见图 2)。一旦出现:

即坏词的概率超越了所有“好词”(不会导致幻觉或伤害的词)时,它便被输出。

图 3 展示了一个简单例子,输入提示为 “THEY ARE” 时(见图 1(a)),‘好’词和‘坏’词之间出现的相变边界。对于一般维度 ,该边界是一个法向量为  的平面,维度为 。此例中,4 个词汇为 THEY, ARE, GOOD, EVIL。

图 3 也可以看作一个大模型的粗略简化版本 —— 可将所有“坏”词归为 EVIL,“好”词归为 GOOD。同时这也描述了一个大模型在某一时刻的暂态状态,其中少数几个 token 的自旋恰巧聚集在当前的  周围。

Refer to caption

图3

相图示例,展示了一个三维 token 嵌入在一个包含四个词的词表下的行为:
???? = (0.25, 0.25, 0.1),
??? = (0.1, 0.3, 0.2),
???? = (0.4, 0.3, 0.1)。
同样为了简化处理,这里取 ?_Q, ?_K, ?_V = ?。只要“坏” (EVIL) 这个 token 保持在左侧的蓝色区域内,输出的语义就仍是“好” (GOOD);但如果 EVIL 出现在红色区域,输出内容就会突然翻转为“坏” (EVIL)。

还可以计算偏见对这些输出边界的影响,从而揭示为何以及何时新的训练或微调会让一个原本可信的 LLM 变得不可信,偏见会旋转输出边界

图4展示了一些简单的例子,随着偏见的增加,输出中会诱发新的(重复的)token(例如 EVIL),而抑制其他 token(例如 GOOD)。

即使是在单层 Attention 的尺度下,这种偏见也能导致输出被有害内容主导——这或许解释了为何尽管已有各种防护机制,所有大型 LLM 中仍然会出现有害内容。

Refer to caption

图4

(a) 具有不同线性偏差 ξ = 0、0.025、0.05 的相图边界(见附录中 δ 的定义,参见图3)。相图边界的变化可能会引发输出内容的剧烈转变,因为红色标记的 token(EVIL)现在成为了高度可能(并反复出现)的输出,而蓝色 token(GOOD)则变得极不可能出现。(b) 加入位置编码(Pₖ)的相图边界变化,其中
(Pᵢ)₂ₘ₊₁ = sin(i / 1000 × 2^m / d),
(Pᵢ)₂ₘ₊₂ = cos(i / 1000 × 2^m / d),
位置编码权重 y = 0.1,展示前100次 token 生成的迭代结果。此处 EVIL = (0.4, 0.15, 0.4)。随着迭代次数增加,相图边界通常会围绕吸引子(GOOD)逆时针旋转,直到边界穿过 token EVIL,此时 EVIL 成为新的吸引子。之后的旋转将围绕 EVIL 展开。因此,生成的 token 在吸引子转换前是 GOOD,而转换后则变为 EVIL。两幅图中的 token 嵌入与图3相同;简化起见,x = 0.4。

图1(a)中所用的是简化版本的 Attention 系统,但其数学结构是可推广的,并且其行为和结构仍将保持不变。未来的工作将超越 Boltzmann 形式的 Softmax,研究非平衡物理体系。
学者们猜想所有 Attention 机制本质上都是某种通用统计系综(statistical ensemble)的变种,其中包含更完整的自旋(token)间二体或高阶相互作用。
这意味着,生成式 AI 的“黑盒”实际上是某种抽象统计场的数值压缩版本
诺奖得主AI教父辛顿说人类本质上是类比机器,本文学者们与Spin-Transformer数据雕刻自旋玻璃学者Matthias完美演绎了这一论断
类比有助于从跨学科角度理解:注意力头特定的功能和分工、长程依赖的捕获、信息在深度网络中流动与转化,以及重复、偏见和幻觉的本质。
Spin-Transformer数据雕刻自旋玻璃文中笔者畅想:
“自旋研究深化了人们对复杂系统相变的认知,大模型这一"用数据雕刻的自旋玻璃",能够实现相变涌现,从而可以解决众多复杂问题。进一步探索和发展与矢量自旋玻璃物理学的联系,并将Transformer作为统计力学系统进行适当的研究,将是有趣的”。
大模型数理原理变得越来越有趣了,不断深化对大模型背后机理的认知,未来一定可以实现对语言与扩散模型的精准控制


文献1,https://arxiv.org/html/2504.04600v1, Capturing AI’s Attention: Physics of Repetition, Hallucination, Bias and Beyond

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询