我要投稿

LLM背后的基础模型（五）

发布日期：2024-05-03 12:24:59 浏览次数： 2014 作者：鲁班模锤

文｜鲁肃

编辑｜郭嘉

注意力机制

本模块的核心目标之一是掌握如何构建和训练基础的Transformer模型。在我们深入讨论模型之前，有必要先来探讨一下注意力机制，这是Transformer模型中至关重要的组成部分。Transformer块在处理完输入序列后，会生成一系列不同的向量，这些向量实际上是用于所谓的“交叉注意力”机制的。本文分为两大部分，前部分则是通俗易懂的解释，后面的部分则是采用数学的视野去阐述。

小白解读（数学免疫）

给没有数学或者计算机背景的人解释注意力机制其实也不难。大模型某种意义上相当于人脑，很多模型的结构设计都来源于人脑。打个不恰当的比方，任何人看到一幅画面，或多或少都会被某个部分吸引，而且这个吸引点因人而异。这个被吸引的部分就是注意力机制。在大模型的训练过程中，通过样本不断地训练注意力机制相关的参数，让大模型能够快速的抓住上下文的重点，以便生成最妥当的后续内容。

从上图中可以看到注意力机制是任何自然语言处理的核心基石。

再举个例子，图书馆（语料）里有藏书（Value）。为了方便检索，每一本书都被做了标记（Key）。当任何人想要了解“漫威”（Query），系统（参数矩阵）会给根据要求给出相关条目以及条目的优先级，例如动漫有所关联，电影也有关联及乃至二战历史也有关联。

这时候大模型为提高效率，并不是所有的书都会仔细看。而是将一些关联度高的条目认真阅读，而关联度低的条目做概要扫描，然后就就对检索内容有全面的了解，之后就可以开始自动生成相关的内容。而注意力机制则是对应落地实现的一种高效算法。

注意力机制很早其实就有了，但是最有影响力的论文是2017年《Attention Is All You Need》，里面展示了如何将样例提炼最重要的信息。

注意力机制数学推理

首先，我们需要明确我们所使用的向量是什么，它代表了我们当前正在处理的标记。假设我们处于模型的第一层，那么输入的词嵌入向量就是我们所说的注意力向量。

注意力机制是通过三种类型的向量构建的：查询向量（Query）、键向量（Key）和值向量（Value）。对于当前处理的每个标记，我们都有一个查询向量；对于序列中的每个标记，我们都有一系列的键向量和值向量。通过将输入的词嵌入向量与特定的权重矩阵相乘，我们得到了查询向量。而查询向量（Q）、键向量（K）和值向量（V）都是通过模型学习得到的，这些权重在训练过程中不断调整。

文中有三个输入向量，每个向量4维。输入乘以权重矩阵之后得到各自的K和V向量。然后查询Q分别和K做点积运算（如图第1个蓝色框框的值为1*0+0*1+2*1=2）

分别求出每个蓝色框框的值之后，则将三个蓝色框架的值根据softmax归一化，即0+0.5+0.5=1

在注意力的计算公式中，使用查询向量（Q）与键向量（K）的转置进行点积运算，并应用softmax函数来获取每个键向量与查询向量的相关性得分。这样，我们就得到了一个与序列长度相同的注意力分数向量。然后用这些注意力分数对相应的值向量进行加权求和，得到最终的输出向量。

紧接着将蓝色框架的数值和V相差，然后累加得到第一个输出向量

注意力机制的关键在于，使用一个查询向量与序列中所有其他标记的键向量进行比较，以判断它们之间的相关性。这个过程在序列中的每个标记都可以并行计算，速度快，效果好。因此，在每次计算注意力时，我们会关注当前的查询向量，并将这个查询向量与所有的键向量进行比较，从而确定每个键向量与查询向量的相关程度。

以此类推，三个Q输入的时候，依次输出三个结果向量。注意的是，注意力机制可以多层，也就是这只是中间的某层。输出的结果可以作为下一层的输入。

总结一下，注意力机制其实要学习的就是三个矩阵，Q矩阵，K矩阵和V矩阵。它们用于和输入相乘，然后提炼出有效的信息存储于矩阵。

注意力机制的关键在于，使用一个查询向量与序列中所有其他标记的键向量进行比较，以判断它们之间的相关性。这个过程在序列中的每个标记都可以并行计算，速度快，效果好。

因此在每次计算注意力时需要关注当前的查询向量，并将这个查询向量与所有的键向量进行比较，从而确定每个键向量与查询向量的相关程度。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

什么是 Playoff 提示词？它为什么能助你从AI中逼出最优决策与方案？

2025-04-29

RAG开发框架LangChain与LlamaIndex对比解析：谁更适合你的AI应用？

2025-04-29

我们有必要使用 Qwen3 吗？

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

做好 AI Agent 最重要的是什么？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部