我要投稿

揭秘两张RTX 3090卡微调70B 大模型的背后

发布日期：2024-04-12 07:40:54 浏览次数： 3703

作者：Python 智能研习社

微信搜一搜，关注“Python 智能研习社”

导读

近日Answer AI 联合bitsandbytes 作者Tim Dettmers、HuggingFace和Mobius Labs整合了FDSP和QLoRA 技术搞出了一个新项目，在个人电脑上用消费级游戏显卡就可以完成70B 规模的大模型微调训练，再次把性价比推向了一个新高度。

QLoRA & FSDP

主要思路：

把量化技术和LoRA 相结合，降低模型可训练参数和单个参数内存大小，整体降低模型内存开销，但是传统的量化处理完后无法在之上进行fine-tun，因此引入结合后的QLoRA 技术把一个70B 模型的内存占用降低到35GB。
用Pytoch 提供的FSDP 分布式训练技术把模型切成2 个17.5GB 分片到2 张24G GPU卡上，结合CPU offloading和梯度累计，剩下的6.5GB 足够应对训练模型的额外开销了。

LoRA：

通常大模型中使用原始精度16或者32位时内存开销很大，特别是参数规模较大的模型，考虑到成本，微软提出了一种优化算法LoRA（Low-Rank Adaptation of Large Language Models），主要思路就是把训练过程中模型权重参数更新拆成一个固定部分+一个小的可训练部分，并且可训练部分的维度可以通过rank 参数控制，rank 越大越接近原始模型，如果等于预训练权重矩阵的rank，那相当于就是原始模型了。

QLoRA：

QLoRA 是充分利用了量化和LoRA，用一个量化的base 模型，再加上一个可训练、非量化的LoRA 适配器，充分结合双方的优点，同时又规避掉缺点，实现了1+1 > 2的效果。

FSDP：

对于一个70B 的模型用QLoRA 技术处理完之后仍然需要高达35GB 内存，如果是单卡训练的话，至少需要一张48GB 内存的卡，但通常成本很高。因此，如何把训练扩展到多张GPU 卡上就成了一个新的需要解决的问题。一个常见的做法就是把模型不同层放到不同GPU 上训练，在transformers 库只需要把device_map 参数值设置成auto 就行，缺点就是同一个时刻只有一张卡在运行，其他都等待，效率很低。幸好PyTorch 中提供了FSDP，把参数切分到不同GPU 上，支持GPU 并行训练，当网络中层在某个GPU 上训练时会从其他GPU 拷贝需要的参数，计算完后再删掉，通过巧妙的实现可以做到同等DDP 性能。

如何使用：

如果想用上了这个新技术，需要在Python 环境中安装transformers、peft和bitsandbytes 。准备完基础环境后，克隆项目（https://github.com/AnswerDotAI/fsdp_qlora/tree/main）到本地，然后运行train.py 脚本就可以完成模型训练，具体例子如下，

python train.py \--train_type qlora \--dataset alpaca \--batch_size 8 \--gradient_accumulation_steps 2 \--output_dir qlora_output --log_to wandb

具体模型的训练逻辑可以参考脚本里的详细内容，在这里面就不再展开了。

总结

通过组合量化、LoRA和FSDP 等一系列基础的优化技术，实现了在个人消费级GPU 卡上微调70B 大模型，也算得上是科技普惠的好成果了，特别是对于资金没那么雄厚的小Lab 来说，可以用更低的成本去做更多探索，进一步推动大模型技术的发展和落地。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

2025-04-06

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

大家都在问

AI狂潮下：大公司如何破解"创新者窘境"？

2025-07-04

Anthropic多智能体如何破解企业级任务并行处理瓶颈？

2025-07-03

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB