我要投稿

大模型：训练时GPU显存不足怎么办

发布日期：2024-05-03 13:10:08 浏览次数： 3476

作者：老宋聊AI

微信搜一搜，关注“老宋聊AI”

前言

大模型时代对显存的要求越来越高，之前在BERT刚诞生时候写过一篇：GPU 显存不足怎么办？，新的这篇文章主要是重构之前的文章，来聊聊大模型时代显存不足时怎么办，没有看过的朋友直接看这篇即可。

训练时显存占用分析

训练模型时所占用的显存主要分为以下部分：模型权重参数，优化器状态，梯度，激活值。假定模型本身的大小为 A，且以 fp32 为精度计算。

模型权重参数

在模型显存为 A 的情况下，所占用的显存为：

fp32 精度显存占用：4A
混合精度下显存占用（bf16/fp16）：2A

优化器状态与梯度

以SGD为例，其计算公式为：

我们看到在 SGD 中，那么此时的显存占用只有梯度：

。

以 Momentum-SGD 为例，其计算公式为：

我们看到在Momentum-SGD 中，不仅仅有梯度

，还有动量

。

以 Adam 为例，其计算公式为：

我们看到在 Adam 中，需要保存的包括：当前梯度

，梯度加权平均

，梯度平方的加权平均

。

因此，假定模型大小为 A，训练中采用 FP32 精度进行优化，那么此时优化器状态和梯度占用的显存分别为：

SGD：优化器状态：0，梯度：4A
Momentum-SGD：优化器状态：4A，梯度：4A
Adam：优化器状态：8A，梯度：4A

而在实际的训练中往往采用混合精度训练，而在混合精度训练下的显存又有所区别。

激活值

激活值的显存占用与 token长度，per_gpu_batch_size，hidden_size 以及 transformer层数 正相关，并且占用显存也非常大，此处就不细写了，主要是技术很复杂，我也没算明白，哈哈哈哈。

训练时显存不足怎么办？

下面列出一些常见的节省显存的操作，优先级从高到低排列。

去掉compute_metrics：有些代码会在输出层后计算rouge分等，这个会输出一个batch_size*vocab_size*seq_len 的一个大向量，非常占显存。
采用bf16/fp16进行混合精度训练：现在大模型基本上都采用 bf16 来进行训练，但是如v100这些机器不支持，可以采用fp16进行训练。显存占用能够降低一倍。
Flash attention：不仅能够降低显存，更能提高训练速度。
降低你的batch size：如上文所述，batch size 与模型每层的激活状态所占显存呈正相关，降低batch size 能够很大程度上降低这部分显存占用。
采用梯度累积：global batch size = batch size * 梯度累积，如果降低 batch size 后想保持你的 global batch size 不变，可以适当提高梯度累积值。
选择合适的上下文长度：如上文所述，上下文长度与激活状态所占显存呈正相关，因此可以通过适当降低上下文长度来降低显存占用。
DeepSpeed Zero：显存占用从高到低为：Zero 1 > Zero 2 > Zero 2 + offload > zero 3 > zero 3 + offload，推荐最多试到 Zero2 + offload。
选择更小的基座模型：在满足需求的情况下，尽量选择更小的基座模型。

几个慎重选择的操作：

Lora：能跑全参就别跑 Lora 或 Qlora，一方面是麻烦，另一方面的确是效果差点。
Qlora：Qlora 的速度比lora慢，但所需显存更少，实在没资源可以试试。
Megatron-LM：可以采用流水线并行和张量并行，使用比较麻烦，适合喜欢折腾的同学。
Pai-Megatron-LM：Megatron-LM 的衍生，支持 Qwen 的sft和pt，坑比较多，爱折腾可以试试。
激活检查点：不推荐，非常耗时。在反向传播时重新计算深度神经网络的中间值。用时间（重新计算这些值两次的时间成本）来换空间（提前存储这些值的内存成本）。

最后

ok，本文到此就结束了，本文主要是对之前文章进行了细化，并补充了大模型时代下的几种显存不足时的方法。

大模型时代来了，乞丐玩家是不是更多了啊，同学。

微信公众号不支持公式，太费劲了。

欢迎大家关注我的微信公众号：老宋聊AI。

参考

【1】https://zhuanlan.zhihu.com/p/31558973

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

大家都在问

AI大模型落地最后一公里：RAG？

2025-07-09

微信支付这波操作把我干懵了，Agent能赚钱？

2025-07-08

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

OpenAI 的第一款 AI 硬件，竟然是一支笔？

2025-07-08

毕业季震撼演讲：当AI重塑一切，人类的价值何在？

2025-07-08

国内 Agent 赛道最大融资诞生！阿里云为何重注这家“真能干活”的 AI 公司？

2025-07-08

大模型落地及Agent记忆的有趣观点：兼看SVG生成用多模态大模型怎么做？

2025-07-07

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部