微信扫码
添加专属顾问
我要投稿
大幅降低显存需求,提升模型上下文长度,Unsloth优化让古董GPU焕发新生。 核心内容: 1. Unsloth优化DeepSeek-R1同款GRPO算法,显存需求降至5GB 2. 推理模型训练显存大幅下降,上下文长度增加10倍 3. 与Flash Attention 2结合,Unsloth大幅降低VRAM使用,提高效率
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。
减少长上下文90%VRAM
和使用Flash Attention 2的标准实现相比,Unsloth使用多种技巧,巧妙地把GRPO的VRAM使用量减少了90%多!
数学原理
分组相对策略优化(Group Relative Policy Optimization,GRPO),出自DeepSeek去年发表的论文。
torch.exp(q-q.detach()) * advantages.unsqueeze(1)
使用参考实现的常规GRPO(红线)
移除detach代码(蓝线)
按照之前讨论的完整反向KL,添加额外项(黄线)
Unsloth高效GRPO算法
其他功能
from unsloth import PatchFastRLPatchFastRL("GRPO", FastLanguageModel)
model, tokenizer = FastLanguageModel.from_pretrained(model_name = "meta-llama/meta-Llama-3.1-8B-Instruct",max_seq_length = max_seq_length,load_in_4bit = True, fast_inference = True, max_lora_rank = lora_rank,gpu_memory_utilization = 0.6, float8_kv_cache = True, )
如果想在vLLM中使用min_p=0.1或其他采样参数,也支持传递vLLM的SamplingParams参数中的任何内容!
max_prompt_length = 256
from trl import GRPOConfig, GRPOTrainer
from unsloth import vLLMSamplingParams
vllm_sampling_params = vLLMSamplingParams(
min_p = 0.1,
seed = 3407,
...
)
training_args = GRPOConfig(
...
vllm_sampling_params = vllm_sampling_params,
temperature = 1.5,
)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-19
低延迟小智AI服务端搭建-ASR篇(续):CPU可跑
2025-04-19
LoRA 与QLoRA区别
2025-04-18
DeepSeek-V3-0324 本地部署,vLLM和SGLang的方法
2025-04-18
Ollama对决vLLM:DEEPSEEK部署神器选谁?90%人选错!这份实测攻略让你秒懂!
2025-04-18
ollama v0.6.6 震撼发布!推理能力翻倍、下载提速 50%,对比 vLLM/LMDeploy 谁更强
2025-04-17
从零开始开发 MCP Server
2025-04-17
AI 应用开发不要在大模型迭代必经之路上
2025-04-17
阿里百炼出手了!MCP 现在配置门槛下降了 100 倍
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11