我要投稿

AI大模型DeepSpeed Chat SFT 实践实践

发布日期：2024-06-26 09:38:59 浏览次数： 1873

一、前言

ChatGPT 整体的训练过程复杂，虽然基于DeepSpeed 可以通过单机多卡、多机多卡、流水线并行等操作来训练和微调大语言模型，但是没有端到端的基于人类反馈机制的强化学习的规模化系统，仍然会造成训练类ChatGPT 系统非常困难。

二、DeepSpeed-Chat SFT 实践

DeepSpeed-Chat是微软于2023 年4月发布的基于DeepSpeed 用于训练类ChatGPT 模型的开发工具。 基于DeepSpeed-Chat 训练类ChatGPT 对话模型的步骤框架如图所示，包含以下三个步骤。（1）有监督微调（SFT）（2）奖励模型微调（3）RLHF 训练

DeepSpeed-Chat 具有以下三大核心功能。

（1）易用的类ChatGPT 模型的训练和强化推理：只需要一个脚本就可以实现多个训练步骤
（2）DeepSpeed-RLHF 管道：DeepSpeed-RLHF 复现了InstructGPT论文中的训练模式；
（3）DeepSpeed-RLHF 系统：将DeepSpeed 的训练能力（Training Engine）和推理能力。

三、Chat代码分析

DeepSpeed-Chat 代码仓库位于微软官方GitHub 仓库DeepSpeedExamples/applications/DeepSpeed-Chat 路径下。在进行实际应用前，需要先对官方代码有一个全局的了解。DeepSpeed-Chat 代码的结构如下所示：

当需要完整微调一个模型时（包含所有步骤），可以直接运行train.py 程序。训练中主要调整如下参数。 --step 训练步骤参数，表示运行哪个步骤，可选参数为1、2、3。本节介绍的内容只使用步骤一，有监督微调。 --deployment-type 表示分布式训练模型的参数，分别为单卡single_gpu、单机多卡single_node 和多机多卡multi_node。 --actor-model 表示要训练的模型，默认参数为训练OPT 的"1.3b"、"6.7b"、"13b"、"66b" 等各个参数量的模型。 --reward-model 表示要训练的奖励模型，默认参数为OPT 的"350m" 参数量的模型。 --actor-zero-stage 表示有监督微调的DeepSpeed 分布式训练配置。 --reward-zero-stage 表示训练奖励的DeepSpeed 分布式训练配置。 --output-dir 表示训练过程和结果的输出路径。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

全面对比dify、coze、streamlit、chainlit

2024-04-26

“大数据+”医疗

2024-04-11

太强了！10大开源大模型！

2024-05-06

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

大家都在问

大模型 “四小龙” 背后的 “清华系” 究竟有多牛？

2024-09-27

iPhone16 上手测试 ChatGPT、Claude，表现太逆天！

2024-09-27

HelpLook 一款简单易用易上手的企业知识库系统，个人与企业管理的好帮手

2024-09-27

使用Ollama部署本地LLM：构建AI REST API的简易指南

2024-09-27

将 LLMs 精调至 1.58 比特: 使极端量化变简单

2024-09-27

垂直软件，才是AI的终极未来

2024-09-27

行业落地分享：阿里云搜索RAG应用实践

2024-09-27

来自世界领先组织的185个生成式 AI 实际应用落地案例

2024-09-27

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

一、前言

二、DeepSpeed-Chat SFT 实践

三、Chat代码分析

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

Ollama 本地运行大模型(LLM)完全指南

Cursor 一个真正让程序员产生危机感的 AI 编程工具

大家都在问

大模型 “四小龙” 背后的 “清华系” 究竟有多牛？

iPhone16 上手测试 ChatGPT、Claude，表现太逆天！

HelpLook 一款简单易用易上手的企业知识库系统，个人与企业管理的好帮手

使用Ollama部署本地LLM：构建AI REST API的简易指南

将 LLMs 精调至 1.58 比特: 使极端量化变简单

垂直软件，才是AI的终极未来

行业落地分享：阿里云搜索RAG应用实践

来自世界领先组织的185个生成式 AI 实际应用落地案例

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

一、前言

二、DeepSpeed-Chat SFT 实践

三、Chat代码分析

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

万字长文解析：大模型需要怎样的硬件算力

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10​大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

Ollama 本地运行大模型(LLM)完全指南

Cursor 一个真正让程序员产生危机感的 AI 编程工具

大家都在问

大模型 “四小龙” 背后的 “清华系” 究竟有多牛？

iPhone16 上手测试 ChatGPT、Claude，表现太逆天！

HelpLook 一款简单易用易上手的企业知识库系统，个人与企业管理的好帮手

使用Ollama部署本地LLM：构建AI REST API的简易指南

将 LLMs 精调至 1.58 比特: 使极端量化变简单

垂直软件，才是AI的终极未来

行业落地分享：阿里云搜索RAG应用实践

来自世界领先组织的185个生成式 AI 实际应用落地案例

热门标签

太强了！10大开源大模型！