我要投稿

利用开源Ollama快速熟悉LLM设计方法（8. KV-cache）

发布日期：2024-04-24 20:55:06 浏览次数： 4215

作者：数据分析与AI技术

微信搜一搜，关注“数据分析与AI技术”

KV-Cache是一种加速推理的技术, KV-Cache就是将Attention 中的KV缓存下来，通过空间换时间的方式来加速计算Attention。

通过上图的展示可以很容易理解：通过将每次计算的K和V缓存下来，之后新的序列进来时只需要从KV Cache中读取之前的KV值即可，就不需要再去重复计算之前的KV了。

原理非常简单，但llama.cpp的实现源代码却是难以理解的，先看看KV-cache数据结构：

从代码注释可以看出这是一个循环存储的buffer（ring buffer），其中的数据说明如下：

1. has_shift: 表示cell中的位置是否做了偏移操作，而偏移量为cell[i].delta。

2. do_defrag: 表示是否需要执行碎片整理操作。

3. do_copy: 表示是否需要执行复制操作。

4. recurrent:表示是否为循环状态模型，应用于mamba模型。

5. head: 表示需要进行计算的KV头位置，如上图中橙色的格子位置，实际值是cell中有数据的单元数。

6. size:表示缓存的大小，即可以存储的键值对的数量。

7. used:表示已使用的cell单元格数量，即至少有一个sequence id（也是slot id）的单元格。

8. n: 表示cell中位置值非负且具有相应sequence id的单元格个数，即有效cell的个数。

9. type_k 和 type_v: 分别表示键（key）和值（value）的数据类型。

10. cells: 用于存储缓存中的每个单元格的状态。

11. k_l:表示每层的键（key）。

12. v_l:表示每层的值（value）。

13. ctxs: 内存管理数据。

14. bufs: buffer数组。

其中的“ llama_kv_cell”结构体主要是应用于记录token位置的变化，其数据说明如下：

pos: 表示token位置。

delta: 表示当前的pos值与原来的pos值出现偏移时的偏移量。

src: 应用于循环状态模型中复制状态。

seq_id: 表示当前位置的token是属于哪个sequence id,即task id或slot id。

KV-cache相关操作都是在cells中进行，如：

rm: 在指定位置范围内移除sequence id；

add: 在指定位置范围内添加sequence id；

cp: 在指定位置范围内插入sequence id；

clear: 清空cells中的数据，把所有cell单元的pos值置为-1，并去除所有sequence id。

KV-cache初始化过程（llama_kv_cache_init）：

步骤1：设置基本参数，如head、size、used、type_k、type_v等。

步骤2：清空cells数组，并重置cells数据大小为kv_size。

步骤3：计算每种buffer所涉及的decode层数量，buffer会有这些类型：GPU、SYCL（一种计算框架）、VULKAN（一种图像计算框架）、HBM（高内存带宽）、普通CPU，但ggml定义的backend只有三种类型：CPU、GPU、GPU_SPLIT。

步骤4：为每一种buffer分配一个ggml context(ggml 内存管理对象)。

步骤5：为decode每一层建立第一个为空的KV张量。

步骤6：为每一种buffer分配一个buffer。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

大家都在问

大模型的Funcation Calling是什么？

2025-10-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

向量搜索已过时，混合搜索都有三大流派了！你看好哪个流派？

2025-10-29

BCG最新报告：企业如何跨越AI价值鸿沟，进入复利增长？

2025-10-28

如何用飞书多维表格快速搭建一个可落地应用？

2025-10-28

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

免费又好用的AI录音笔都出来了，这下哪还有理由不学习？

2025-10-27

当AI学会“听”：声音识别到声音理解，AI到底是怎么听懂的？

2025-10-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB