论文:https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf 这篇论文使用人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)的方法,基于base model,并经过三个阶段的训练过程,最终得到的InstructGPT模型在遵循人类偏好方面,表现超过了参数量大100倍的175B GPT-3模型。训练过程分为三个阶段从一个预训练的语言模型和一个希望模型产生对齐回答的问题库开始
多维度奖励支持
‒ 奖励建模可以针对不同维度设计奖励。例如一些研究比如Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Llama 2: Open Foundation and Fine-Tuned Chat Models(https://arxiv.org/abs/2204.05862)中分别根据“帮助性”和“无害性”两个维度来设计奖励