我要投稿

可视化理解Transformer中的Attention机制

发布日期：2024-06-21 03:24:46 浏览次数： 2774

作者：不糊弄的说

微信搜一搜，关注“不糊弄的说”

3blue1brown

编者按：本文是3blue1brown出品的第6章内容Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning.讲解什么是GPT？通过图形化的方式来理解Transformer中的注意力机制。此次节选PART为回顾前一篇文章的Embeddings嵌入技术，并引入案例，解释为何关注注意力机制。

by Grant Sanderson

（小编跟踪译文整理，供参考学习）

回顾

在上一章中我们探讨了Transformer的内部运作机制，作为大语言模型中关键的技术组成部分，也被广泛应用于现代AI领域的诸多工具中。它首次亮相是在2017年一篇广为人知的论文《Attention is All You Need》中，本章我们将深入探讨这种Attention注意力机制，以及可视化展示它如何处理数据。

图 1: Attention Is All You Need论文

图 2: Transformer模型架构

在此想快速回顾一些重要的背景信息：正在研究的模型的目标是读取一段文本并预测下一个词。输入文本被分割成称之为Tokens的小部分，它们通常是完整的单词或单词的一部分。但为了让我们在这个视频中的例子更加简单易懂，让我们假设Token总是完整的单词。

嵌入技术（Embeddings）

Transformer的第一步是将每个Token与一个高维向量关联，这就是我们所说的嵌入向量。我希望你能理解的关键概念是，如何理解在所有可能的嵌入向量所构成的高维空间中，不同的方向能够代表不同的语义含义。

在上一章中给出了一个例子，说明了方向如何对应性别，即在这个空间中添加一定的变化可以从一个男性名词的嵌入转到对应的女性名词的嵌入。

这只是一个例子，可以设想在这样一个复杂的空间中有无数的方向，每一个都可能代表着词义的不同方面，Transformer的目标是逐步调整这些嵌入，使之不仅仅编码单词本身，而是包含更丰富、更深层次的上下文含义。

词嵌入Embedding是将每个 Token 映射到高维向量——词向量。

图中每个词表示一个Token（视频为了展示效果，用单词作为Token）。所有可能的 embedding 构成的高维空间（词向量空间）中，方向可以对应语义含义。

方向对应性别的示例：(?(?????)−?(???)) 的向量的方向表示性别，因此 ?(????) 在叠加上该向量后，近似于 ?(?????)。

transformer的目标是逐步调整这些embedding，使它们不仅仅编码单词本身，而是融入更加丰富、更深层次的上下文语义。

注意力机制Attention

深入到计算细节和矩阵运算之前，有必要先了解一些我们期望注意力机制能实现的行为示例。

考虑以下短语：

American shrew code:美国真鼹鼠（mole）
One mole of carbon dioxide：一摩尔（mole）二氧化碳
Take a biopsy of the more：对肿瘤(mole) 进行活检

在不同的上下文环境下，"mole"这个词会有不同的意思。然而在Transformer的第一步中，文本被拆分，每个Token都被关联到一个向量，这时"mole"这个词对应的向量在所有情况下都是相同的，因为初始的Token嵌入向量本质上是一个不参考上下文的查找表。直到Transformer的下一步，周围的嵌入才有机会向这个Token传递信息。可以想象嵌入空间里有多个不同的方向，这些方向分别编码了"mole"这个词的多种不同含义。如果Token经过了良好的训练，注意力模块就可以计算出需要根据上下文在通用嵌入向量中添加什么内容，使其指向其中一个特定的方向。

再来看一个例子，比如单词"Tower"的嵌入向量，这可能是个非常通用、不特定的方向，与许多大型、高大的名词关联。如果"Tower"前面是"埃菲尔",你可能希望更新这个向量，使其更具体地指向埃菲尔铁塔的方向，可能与巴黎、法国或者钢铁制品相关的向量有关。如果前面还有"微型"这个词，那么这个向量应该进一步更新，使其不再与大型、高大的事物相关。

更进一步讲，注意力模块不仅可以精确一个词的含义，还能将一个嵌入向量中的信息传递到另一个嵌入向量中，即使这两个嵌入向量相距很远，信息也可能比单一单词要丰富得多。如我们在上一章中看到的，所有向量通过网络流动，包括经过许多不同的注意力模块后，预测下一个Token的计算过程完全取决于序列中的最后一个向量。例如，你输入的文字是一整部悬疑小说，到了接近尾声的部分，写着"所以，凶手是"。

蓝色游荡生物

如果模型要准确地预测下一个词，那么这个序列中的最后一个向量，它最初只是嵌入了单词"是",它必须经过所有的注意力模块的更新，以包含远超过任何单个单词的信息，通过某种方式编码了所有来自完整的上下文窗口中与预测下一个词相关的信息。

但为了逐步解析计算过程，我们先看一个更简单的例子。假设输入包含了一个句子，"a fluffy blue creature roamed the verdant forest.一个蓬松的蓝色生物在葱郁的森林中游荡"。假设我们此刻关注的只是让形容词调整其对应名词的含义的这种更新方式。我马上要讲的是我们通常所说的单个注意力分支，稍后我们会看到一个注意力模块是由许多不同的分支并行运行组成的。

高维向量

需要强调的是，每个词的初始嵌入是一个高维向量，只编码了该特定词的含义，不包含任何上下文。实际上，这并不完全正确。它们还编码了词的位置。关于位置如何被编码的细节有很多，但你现在只需要知道，这个向量的条目足以告诉你这个词是什么，以及它在上下文中的位置。让我们用字母 E 来表示这些嵌入。

我们的目标是，通过一系列计算产生一组新的、更为精细的嵌入向量，比如这样做可以让名词的嵌入向量捕捉并融合了与它们相对应的形容词的含义。而在深度学习的过程中，希望大部分的计算都像矩阵 - 向量的乘积，其中的矩阵充满了可调的权重，模型将根据数据来学习这些权重。

需要明确的是构造这个形容词调整名词的例子，只是为了说明可以设想一个注意力分支可能做的事情。正如深度学习常见的情况，真实的行为更为复杂，因为它涉及到调整和微调海量参数以最小化某种成本函数。

下一章：Attention工作原理

逐一审视这一过程中涉及的各种参数矩阵时，设想一个具体的应用场景能帮助我们更好地理解其背后的逻辑。

膜拜大佬

原文视频是3Blue1Brown出品，是由斯坦福大学的数学系学生Grant Sanderson创建的YouTube频道。该频道从独特的视觉角度解说高等数学，内容包括线性代数、微积分、神经网络、黎曼猜想、傅里叶变换以及四元数等等。

原文链接

https://www.3blue1brown.com/lessons/attentionhttps://arxiv.org/pdf/1706.03762https://www.youtube.com/watch?v=eMlx5fFNoYc

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-12

Agent KB：让Agent越用越聪明！

2025-07-12

【Agent专题】MCP架构实战：开发者必藏！最全MCP智能代理构建指南，附实操解析

2025-07-12

又一个细分领域被AI颠覆，750万美元押注AI产品测试，这家公司让4-6周测试周期缩短至数小时

2025-07-12

AI Agent 的护城河：从私有数据、专有工具到演化式信任

2025-07-11

让大模型更懂你，京东零售的算法工程师做了这些事

2025-07-11

Agent革命前夜，中国移动“九天”如何落地

2025-07-11

用了它之后，我明白了Manus的困境

2025-07-11

AI 将如何改变我们构建产品的途径

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

一文实测Gemini 2.5 Pro：视频驱动的代码生成，打造交互式开发应用新范式

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

从谨慎检查到一键接受，TRAE 如何成为我的主力 IDE？

2025-07-10

垂直赛道 Agent 闷声发财指南：如何实现一年超千万营收？

2025-07-10

你的大脑真的在被AI“腐蚀”吗？

2025-07-10

如何在 Elasticsearch 中构建你的智能 AI 助手？

2025-07-09

毕业季震撼演讲：当AI重塑一切，人类的价值何在？

2025-07-08

大模型落地及Agent记忆的有趣观点：兼看SVG生成用多模态大模型怎么做？

2025-07-07

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB