我要投稿

大语言模型笔面试-第4章

发布日期：2024-06-07 12:16:54 浏览次数： 2872

作者：DeepPrompting

微信搜一搜，关注“DeepPrompting”

1、attention中QKV的含义和作用？

本质计算当前文本中哪个词更重要对输出就应该增加影响力。通过计算每个词和当前文本中其他词之间的相关性（注意力分数矩阵），进而度量出当前词在整个文本更重要进而对输出应该加权影响更大。

进而将当前文本信息的压缩矩阵进行新一轮考虑语义影响的压缩变换，强化文内语义关联

1 原始语义有embedding获得 .

2上下文语义靠Attention获得.

3 低维压缩表达靠LLM最后输出.

查询向量Q: 用于发出查询，寻找相关信息。
键向量K: 用于标识和度量与查询相关的信息位置或特征。
值向量V: 包含实际的信息内容，通过注意力权重选择和组合这些内容以生成最终输出。

Self-Attention机制简介

首先，回顾一下自注意力机制（self-attention）的作用：

自注意力机制的核心在于计算序列X 对自身的注意力权重，即序列中每个时间点与其他时间点之间的相关性（通过相似度来体现）。通过这种方式，我们能够得到一个注意力矩阵。

得到注意力矩阵后，我们将其应用于序列X，从而计算出各个时间点的加权和。这意味着每个时间点的信息都会融合来自其他时间点的信息。

Q、K、V的作用

为了实现上述过程，我们需要引入查询（Q）、键（K）和值（V）三个矩阵。它们的作用如下：

**查询（Q）和键（K）**用于计算注意力权重：

首先，对序列X 进行线性变换，得到三个新的表示矩阵：查询矩阵Q、键矩阵K 和值矩阵V。
查询矩阵Q 和键矩阵K 用于计算相似度（或相关性）。这种相似度可以通过点积、MLP（多层感知器）等方式计算。
计算相似度后，应用 softmax 函数将其转化为注意力权重矩阵，使得权重和为1，从而确保数据的尺度在后续计算中保持稳定。
**值（V）**用于生成最终的注意力输出：

将注意力权重矩阵与值矩阵V 相乘，计算加权和，得到最终的输出。

1. Query (Q)

含义: 查询向量。

作用: 查询向量用于在注意力机制中查找相关信息。对于每个查询向量，注意力机制会根据键向量计算注意力权重，从而选择相应的值向量。

2. Key (K)

含义: 键向量。

作用: 键向量与查询向量一起用于计算注意力权重。键向量表示所有可能的参考信息的位置或特征，通过与查询向量的点积计算相似度，决定每个值向量的重要性。

3. Value (V)

含义: 值向量。

作用: 值向量是实际被选择和加权的对象。通过与注意力权重相结合，值向量生成最终的输出。权重越高的值向量，对最终输出的影响越大。

注意力分数矩阵（attention score matrix）在注意力机制中起着核心作用，决定了如何加权输入序列中的不同元素，以生成最终的注意力输出。它通过衡量查询向量（Query）与键向量（Key）之间的相似度，来计算每个元素的重要性。下面详细解释注意力分数矩阵的作用和计算过程。

注意力分数矩阵的作用

衡量相似度: 注意力分数矩阵中的每个元素表示查询向量与键向量之间的相似度。相似度越高，表示查询向量与对应的键向量越相关。
确定权重: 注意力分数矩阵通过softmax函数归一化，转化为权重矩阵。这个权重矩阵用于加权值向量（Value），决定了最终输出中不同输入元素的贡献。
捕捉依赖关系: 通过计算注意力分数矩阵，模型能够捕捉到序列中元素之间的依赖关系，特别是在处理自然语言时，能够识别单词与上下文之间的关系。

报名多模态课程把握前沿趋势，成为多模态工程师：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-22

最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

2025-12-22

Claude Code Skill 设计机制深度分析

2025-12-22

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

人工智能 | 企业级AI市场的快速爆发，但仍停留在Copilot阶段、Agent还没到来 —— Menlo Ventures

2025-12-21

剿杀n8n！Google Gems 重塑AI工作流，真一句话一个应用

2025-12-21

2026年将属于能善用最便宜的Token，解决最脏最累问题的“务实主义者”（长文）

2025-12-21

警惕！每天用AI的人，大脑正在变“懒”：MIT实验证实思考退化危机

2025-12-21

CosyVoice3一键包，3秒完美复刻声音！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

大家都在问

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

Prompt是与LLM对话的唯一方式：如何给大模型装上能指挥“手脚”的脑子？

2025-12-16

200k Tokens 的上下文真的够用吗？

2025-12-15

巨头翻身！谷歌全新AI浏览器Disco问世，PC版灵光？

2025-12-14

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

Human In the Loop竟然可以是个MCP?

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean