我要投稿

运行 70B的LLM，需要多大GPU显存 ?

发布日期：2025-02-10 08:35:22 浏览次数： 3492 作者：星哥笔记

正如文章标题所言，你是否也曾好奇过：加载使用一个 70B 大小的 LLM，究竟需要多大的 GPU 显存呢？读完这篇文章应该会有答案。

为什么是GPU，而不是CPU

AI 本质上是大量的 矩阵与 向量 运算，属于计算密集型运算，需要大量的内存空间来保存模型的训练参数。一般通用 CPU 运算单元都是标量 ，而 GPU 是一个把SIMD(单指令多数据)和SIMT(单指令多线程)运用到极致的协处理器，在体系结构上实现了运算单元的高度并行。

简单讲，就是 GPU 比 CPU 更适合用来做计算密集型任务。而 LLM 的推理、部署过程恰巧就是计算型任务。所以 GPU 比 CPU 更加适合用来运行 LLM 运算。

有一个有趣的事实，GPU的全称是Graphic Processing Unit，从名字中就能看出它最初被设计用来处理图像渲染相关的。但是命运似乎开了一个玩笑，没想到后来ML/AI也长成了矩阵的模样。GPU 就顺其自然的接管 AI/ML 甚至 LLM 运算了。

如何计算 GPU Memory

在大模型的使用过程中，有几个因素会影响 GPU Memory 的占用大小，主要包含以下几个因素：

模型自身大小
Key-Value Cache
Memory Overhead

模型大小

模型本身的大小在很大程度上，决定了需要使用 GPU Memory 的大小。模型越大，需使用的 GPU 内存越大。

模型的大小由 2 部分决定：模型参数量 和 数据精度类型

模型参数量

也就是进行模型训练的参数个数，单位是B(Billion缩写)。比如 GPT-3 的参数量是 175 Billion，LLaMa-2 13B 的参数量就是13 BIllion。

参数数据类型

也就是模型的输入参数数据类型，有float32或float16或者float8等。例如，在 PyTorch 中，你可以通过以下方式指定数据类型：

import torch
# 设置数据类型为 float16torch.set_default_dtype(torch.float16)
# 创建一个 Transformer 模型实例model = TransformerModel()

不同的数据类型，每个参数占用的大小也不一样：

float32 : 1 个参数占用 4 个 byte
float16 ：1 个参数占用 2 个 byte
8 bit ：1 个参数只占用 1 个 byte

假设我们使用 float16 加载 LLaMa-2 13B 的模型，那最终加载模型的内存大小为 : 13 Billion * 2 byte = 26 GB。

Key-Value Cache

KV缓存(Key-Value Cache)是 Transformer 模型在自回归解码过程中使用的一种优化技术，主要是用来提升大模型的推理速度。它通过缓存之前计算得到的 键Key 和 值Value 向量来减少重复计算，从而提高推理效率。大体思想其实跟动态规划DP中的以空间换时间差不多。

计算公式如下：

2 * n_dtype * n_layers * n_hidden_size

参数解释：

2 代表每个 KV-Cache 都需要保存 2 个byte 来分别缓存 Key 和 Value。
n_dtype 就是上文中提到的参数数据类型。这个参数确保了模型在处理数据时使用正确的数据类型，从而避免潜在的精度问题。
n_layers 表示Transformer中编码器和解码器的层数总和。每个编码器层和解码器层都包含自注意力机制和前馈神经网络，通过堆叠多个这样的层，可以增加模型的深度和表达能力。
n_hidden_size ‌指隐藏层的维度大小‌。神经网络通常包括输入层、隐藏层和输出层，而n_hidden_size就是用来定义隐藏层的维度大小。

同样还是以 LLaMa-2 13B 模型举例，数据类型为 float16，1 个 token 的 KV Cache 大小为：

2 * 2 * 40 * 5120 = 820 KB/token

LLaMa-2 13B 的 n_layers是 40，n_hidden_size是 5120，所以最终结果是 820 KB。

800 KB 看起来并不是很多，但这只是仅仅一个 Token 的使用。在实际的大模型应用中里，用户的输入Input和大模型的输出Output，往往是需要使用成千上万个 Token 来推理得出的。

比如使用 “Token 计算网站” 来计算 "上海今天天气怎么样?" 这句话会使用多少 Token。结果如下：

可以看出总共占用了 5 个 Token。然后输出结果如下：

可以看出大模型输出上海天气结果使用了 54 个 Token。

因此 "上海今天天气怎么样?" 这句 Query，大模型LLM总共使用了 5 + 54 个 Token。每个 Token 需使用 800KB，因此这次 Query 总共需要使用 59 * 800 KB = 46MB。

注意：实际场景中，LLM有可能接收到更多 Token 的输入Input，比如处理长文本等需求。 LLaMa-2 13B 单个请求可设置的最大 Token 数是 4096 个。因此 LLaMa-2 13B 单次能处理的最大 KV-Cache 就是 4096 * 820 KB = 3.2 GB。另外随着并发请求次数的增多，这个数字还会成倍的增长！

Memory Overhead

在 LLM 的推理过程中，还有一些碎片化的临时变量。这些临时变量也需要占用 GPU Memory。所以除了模型大小、KV-Cache 之外，还需要有一定的额外内存开销。一般可以使用模型大小 + KV-Cache最大值的 10% 来当做额外内存开销的大小。

GPU Memory 总计算公式

要计算所有大模型在使用过程中需要的 GPU Memory，需要将所有上述提到的因素都考虑到。下面公式是一个完整的计算公式：

Total GPU Memory = 模型大小 + KV Cache + Memory Overhead

最后还是以 LLaMa-2 13B 来举例。假设有 10 个并发请求，同时请求 LLaMa-2 13B 以最大 Token数(4096) 进行模型推理。那最终需要的 GPU Memory 计算过程如下：

模型大小= 13 Billion * 2 Bytes = 26 GB
Total KV cache= 800 KB * 4096 Tokens * 10 并发请求 = 32 GB
Memory Overhead= 0.1 * (26 GB + 32 GB) = 5.8 GB

所以最终需要总 GPU memory为: 26 GB + 32 GB + 5.8 GB = 63.8 GB。需要 2 块英伟达的 A100 芯片才可以。

常见大模型的 GPU Memory

下面 2 张表格分别描述了不同大小的模型，根据不同Token数以及不同并发请求数的情况下，所需要的 GPU Memory 大小。

单次并发请求：

10 次并发请求：

可以看出随着并发请求数、Token数，以及大模型大小的增长，GPU Memory的增长是很恐怖的，这样硬件算力的成本太高。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

2025-04-26

8 卡 H100 大模型训练环境部署文档

2025-04-25

DeepSeek + Dify 企业级大模型私有化部署指南

2025-04-24

自主构建MCP，轻松实现云端部署！

2025-04-24

大模型微调框架LLaMA-Factory

2025-04-23

Unsloth：提升 LLM 微调效率的革命性开源工具

2025-04-23

超越 DevOps？VibeOps 引领 AI 驱动的开发革命

2025-04-23

大模型想 “专精” 特定任务？这 3 种 Addition-Based 微调法别错过

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB