微信扫码
与创始人交个朋友
我要投稿
参考现有的中文医疗模型:MedicalGPT[1]、CareGPT[2]等领域模型的训练流程,结合 ChatGPT 的训练流程,总结如下:
在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使 LLM 更有用更安全的响应用户的提示。
训练流程的四个阶段,分别如下:
该阶段的训练数据格式如下。对应是非结构化的自然语言文本,通过设定 max_seq_len 和 block_size 等方式,实现文本数据的 chunk,batch 化,作为模型的训练数据,处理完的单条数据包含 input_ids,attention_mask 和 labels;训练的目标是模型需要根据提供的文本来预测 下一个单词。
该阶段的训练数据格式如下。一般对应的结构采用 instruction/input/output/history,根据不同的场景,input 与 history 可以做缺省处理。但是需要人工标注的指令数据集。
该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐,这也是 RHLF 机制的作用。 RLHF 主要包括两步:
该阶段是 RHLF 的第一个阶段,训练得到一个 rm 模型用于 rl 阶段的模型打分,其结构格式如下:有多种格式的数据,可自己选择,但需要程序做额外的处理,且这些数据都是人工标注好的。
该阶段是 RHLF 的第二个阶段,也是核心部分,用于优化一个 RM 模型,并完成打分。数据格式同 SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现;引导优化后的大模型生成更符合人类偏好的内容。
对于模型的微调,一开始我是想的太简单了,觉得只要按照基座官方模型文档调试即可;随着了解的深入与不断的学习,微调是个大工程而且对于领域模型来说,其训练流程:预训练 --> 监督微调 --> RHLF 中包含的事项与知识太多。 参考:【中文医疗大模型】训练全流程源码剖析
MedicalGPT: https://api.ibos.cn/v4/weapparticle/accesswximg?aid=78683&url=aHR0cHM6Ly9naXRodWIuY29tL3NoaWJpbmc2MjQvTWVkaWNhbEdQVC9ibG9iL21haW4vUkVBRE1FLm1k
[2]CareGPT: https://api.ibos.cn/v4/weapparticle/accesswximg?aid=78683&url=aHR0cHM6Ly9naXRodWIuY29tL1dhbmdSb25nc2hlbmcvQ2FyZUdQVA==
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-04-26
2024-05-14
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-28
2024-05-22
2024-04-25
2024-04-26
2024-11-22
2024-11-22
2024-11-21
2024-11-20
2024-11-19
2024-11-18
2024-11-18
2024-11-16