我要投稿

Transformer动画讲解 - 注意力计算Q、K、V

发布日期：2024-06-05 08:32:14 浏览次数： 1866

注意力计算Q、K、V

Transformer的起源：Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer，它完全基于注意力机制，摒弃了循环和卷积操作。

注意力机制是全部所需

正如论文标题所言“注意力机制是全部所需”，强调了注意力机制是Transformer架构的核心要素，就如同人的心脏一样，充当着发动机的作用。

注意力计算Q、K、V

神经网络算法 - 一文搞懂Transformer

神经网络算法 - 一文搞懂 Transformer（总体架构 & 三种注意力层）

神经网络算法 - 一文搞懂Transformer中的三种注意力机制

注意力计算Q、K、V：在注意力机制中，Q（Query）、K（Key）、V（Value）通过映射矩阵得到相应的向量，通过计算Q与K的点积相似度并经过softmax归一化得到权重，最后使用这些权重对V进行加权求和得到输出。

Transformer注意力计算公式

权重矩阵W：W_Q、W_K和W_V

权重矩阵W是可训练的参数，其维度为(d_model, d_k)，其中d_model是输入嵌入的维度，d_k是Q/K/V向量的维度。通过训练，模型会学习到如何从输入数据中提取出对任务有用的特征，并将其映射到Q、K、V向量中
初始时，这些权重矩阵的值通常是随机初始化的。经过训练后，它们会学习到如何从输入数据中提取出对任务有用的特征。
模型会通过反向传播算法和梯度下降来更新这些权重矩阵W的值，以最小化某个损失函数（如交叉熵损失）。

权重矩阵W_Q计算Query（Q）：在Transformer模型中，Query（Q）是通过将输入数据的嵌入矩阵E与权重矩阵W_Q相乘得到的。

权重矩阵W_Q的定义：

在Transformer模型中，权重矩阵W是用于将输入数据（如词嵌入）映射到Q、K、V（Query、Key、Value）向量的线性变换矩阵。对于Query（Q），有一个专门的权重矩阵W_Q。
W_Q的维度通常是(d_model, d_k)，其中d_model是输入嵌入的维度（也是模型的维度），而d_k是Q/K/V向量的维度。假设d_k被设定为128。

计算Query（Q）：

给定输入序列的嵌入矩阵E（形状为(batch_size, sequence_length, d_model)），Query矩阵Q是通过将X与权重矩阵W_Q相乘得到的。
具体地，对于Q中的每一个嵌入向量q_i（形状为(d_model)），Q中的一个向量q_i可以通过q_i = e_i * W_Q计算得到。
因此，整个Query矩阵Q（形状为(batch_size, sequence_length, d_k)）可以通过E * W_Q计算得到。‍

计算Q（Query）

权重矩阵W_K计算Key（K）：在Transformer模型中，Key（K）是通过将输入数据的嵌入矩阵E与权重矩阵W_K相乘得到的。

权重矩阵W_K的定义：

在Transformer模型中，权重矩阵W_K也是一个可训练的权重矩阵，用于将输入数据的嵌入映射到Key向量（K）。
W_K的维度通常是(d_model, d_k)，其中d_model是输入嵌入的维度（也是Transformer模型的维度），d_k是Key向量的维度。假设d_k被设定为128。

计算Key（K）：

给定输入序列的嵌入矩阵E（形状为(batch_size, sequence_length, d_model)），Key矩阵K是通过将E与权重矩阵W_K相乘得到的。
具体地，对于K中的每一个嵌入向量k_i（形状为(d_model)），K中的一个向量k_i可以通过k_i = e_i * W_K计算得到。
因此，整个Key矩阵K（形状为(batch_size, sequence_length, d_k)）可以通过X * W_K计算得到。

计算K（Key）

权重矩阵W_V计算Value（V）：在Transformer模型中，Value（V）是通过将输入数据的嵌入矩阵E与权重矩阵W_V相乘得到的。

权重矩阵W_V的定义：

在Transformer模型中，权重矩阵W_V也是一个可训练的权重矩阵，用于将输入数据的嵌入映射到Value向量（V）。
W_V的维度通常是(d_model, d_v)，其中d_model是输入嵌入的维度（也是Transformer模型的维度），d_v是Value向量的维度。假设d_k被设定为128。

计算Value（V）：

给定输入序列的嵌入矩阵E（形状为(batch_size, sequence_length, d_model)），Value矩阵V是通过将E与权重矩阵W_V相乘得到的。
具体地，对于E中的每一个嵌入向量e_i（形状为(d_model)），V中的一个向量v_i可以通过v_i = e_i * W_V计算得到。
因此，整个Value矩阵V（形状为(batch_size, sequence_length, d_v)）可以通过E * W_V计算得到。

计算V（Value）

Q、K、V计算：Q用于查询，K用于匹配，V提供被加权的信息。通过计算Q和K的点积来衡量注意力分数，进而决定V的加权方式。

Q（query）、K（Key）、V（Value）计算

**注释**

Transformer动画素材来源于3Blue1Brown，想了解更多查看参考资料网址。

3Blue1Brown 是一个由 Grant Sanderson 创建的YouTube 频道。这个频道从独特的视觉角度解说高等数学，内容包括线性代数、微积分、人工神经网络、黎曼猜想、傅里叶变换以及四元数等。

Grant Sanderson 毕业于斯坦福大学，并获得了数学学士学位。

参考资料

https://www.3blue1brown.com/
https://www.3blue1brown.com/lessons/attention
《Attention Is All You Need》

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

权重矩阵W：W_Q、W_K和W_V

权重矩阵W是可训练的参数，其维度为(d_model, d_k)，其中d_model是输入嵌入的维度，d_k是Q/K/V向量的维度。通过训练，模型会学习到如何从输入数据中提取出对任务有用的特征，并将其映射到Q、K、V向量中

权重矩阵W_Q计算Query（Q）：在Transformer模型中，Query（Q）是通过将输入数据的嵌入矩阵E与权重矩阵W_Q相乘得到的。

权重矩阵W_K计算Key（K）：在Transformer模型中，Key（K）是通过将输入数据的嵌入矩阵E与权重矩阵W_K相乘得到的。

权重矩阵W_V计算Value（V）：在Transformer模型中，Value（V）是通过将输入数据的嵌入矩阵E与权重矩阵W_V相乘得到的。

Q、K、V计算：Q用于查询，K用于匹配，V提供被加权的信息。通过计算Q和K的点积来衡量注意力分数，进而决定V的加权方式。

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

权重矩阵W：W_Q、W_K和W_V

权重矩阵W是可训练的参数，其维度为(d_model, d_k)，其中d_model是输入嵌入的维度，d_k是Q/K/V向量的维度。通过训练，模型会学习到如何从输入数据中提取出对任务有用的特征，并将其映射到Q、K、V向量中

权重矩阵W_Q计算Query（Q）：在Transformer模型中，Query（Q）是通过将输入数据的嵌入矩阵E与权重矩阵W_Q相乘得到的。

权重矩阵W_K计算Key（K）：在Transformer模型中，Key（K）是通过将输入数据的嵌入矩阵E与权重矩阵W_K相乘得到的。

权重矩阵W_V计算Value（V）：在Transformer模型中，Value（V）是通过将输入数据的嵌入矩阵E与权重矩阵W_V相乘得到的。

Q、K、V计算：Q用于查询，K用于匹配，V提供被加权的信息。通过计算Q和K的点积来衡量注意力分数，进而决定V的加权方式。

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示