我要投稿

大模型技术知识点：RLHF

发布日期：2024-03-25 21:16:55 浏览次数： 3379

作者：数联未来

微信搜一搜，关注“数联未来”

RLHF（Reinforcement Learning with Human Feedback）即基于人类反馈的强化学习，是一种结合了强化学习与人类反馈的机器学习方法。这种方法主要目的是通过人类的反馈来指导模型的学习过程，使得模型的行为能够更好地符合人类的偏好和期望。

RLHF主要包括以下步骤：

监督微调（Supervised Finetuning）：使用人类提供的示例数据对预训练的模型进行微调，使模型能够理解并遵循人类的指令。
创建奖励模型（Reward Modeling）：训练一个奖励模型，用于评估给定输出与人类偏好的符合程度。这个模型通常也是基于人类提供的反馈进行训练。
通过近端策略优化进行微调（Proximal Policy Optimization, PPO）：使用强化学习中的PPO算法，结合奖励模型来优化预训练模型。模型尝试生成能得到更高奖励的输出。

特点：

结合人类反馈：与传统的强化学习不同，RLHF将人类的反馈直接融入学习过程。
样本效率：通过利用人类反馈，可以在较少的迭代次数内达到较好的学习效果。
灵活性：可以应用于多种场景，只要能够提供有效的人类反馈。

优势：

提升模型对齐：使得模型生成的结果更符合人类的意图和偏好。
增强模型理解能力：通过人类的指导，模型可以更好地理解复杂和抽象的概念。
减少试错成本：减少了传统强化学习中大量的试错过程。

问题：

多样性减少：RLHF可能导致模型生成的结果过于集中，减少了输出的多样性。
人类反馈的偏差：如果人类反馈存在偏差，那么模型也可能学习到这些偏差。
实际应用难度：获取大量一致且高质量的人类反馈是一项挑战。

适用场景：

自然语言处理：用于改进聊天机器人、文本生成等任务的输出质量。
推荐系统：优化推荐结果，使其更符合用户的喜好。
机器人控制：在需要机器人与人类紧密互动的场景中，确保机器人的行为更安全和可接受。

总的来说，RLHF提供了一种有效的途径来改善模型的行为和输出质量，尤其是在需要紧密对齐人类意图和偏好的应用场景中。然而，其成功也高度依赖于获取高质量人类反馈的能力，以及如何避免引入人类反馈中的偏差。

下面将给出一个简化版的RLHF实现案例，并使用PyTorch代码进行展示。这个案例将聚焦于如何使用人类反馈来优化一个情感分类任务的预训练模型。

首先，确保你已经安装了transformers库，它提供了方便使用的预训练模型和实用工具。

pip install transformerspython复制代码python复制代码python复制代码

准备数据集：收集情感分类的数据集，并为每个样本分配正面或负面的标签。
加载预训练模型：加载一个预训练的模型作为起点。
定义奖励模型：定义一个奖励模型来评估预训练模型的输出。
使用PPO进行优化：使用近端策略优化（PPO）算法来调整预训练模型的参数。

1. 数据集准备（伪代码）

这里我们假设已经有了处理好的数据集和相应的标签。


from transformers import BertTokenizer



tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')



# 假设 texts 和 labels 已经准备好

texts = ["这个产品非常好", "服务太差了", ...]

labels = [1, 0, ...]# 1 表示正面，0 表示负面



# 对数据进行编码

encoding = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')

input_ids = encoding['input_ids']

attention_mask = encoding['attention_mask']复制代码
复制代码
复制代码

2. 加载预训练模型


from transformers import BertForSequenceClassification



model = BertForSequenceClassification.from_pretrained('bert-base-chinese')复制代码
复制代码
复制代码

3. 定义奖励模型（伪代码）

奖励模型可以是任何能够评估情感分类任务性能的模型。这里我们简单地使用了一个线性层。


class RewardModel(nn.Module):

def __init__(self):

super().__init__()

self.layer = nn.Linear(768, 1)# 假设BERT的输出是768维



def forward(self, pooled_output):

return self.layer(pooled_output)



reward_model = RewardModel()复制代码
复制代码
复制代码

4. 使用PPO进行优化

以下是使用PPO算法进行优化的伪代码。实际中，你需要实现PPO的细节。


import torch.optim as optim



# 定义优化器

optimizer = optim.Adam(model.parameters(), lr=1e-5)

ppo_optimizer = optim.Adam(model.parameters(), lr=1e-5)# PPO的优化器



# 模型训练

for epoch in range(num_epochs):

for batch in dataloader:

# 获取输入

input_ids, attention_mask, labels = batch



# 预训练模型前向传播

outputs = model(input_ids=input_ids, attention_mask=attention_mask)

pooled_output = outputs.pooler_output



# 奖励模型前向传播

reward = reward_model(pooled_output).squeeze(-1)



# 使用PPO算法更新模型

# 注意：这里没有给出完整的PPO算法实现，需要自己根据PPO算法细节进行实现

ppo_loss = calculate_ppo_loss(reward, labels)

ppo_loss.backward()

ppo_optimizer.step()复制代码
复制代码
复制代码

请注意，这里的代码是一个高度简化的示例，没有包含完整的PPO算法实现。实际上，PPO算法需要包括策略评估、优势函数计算、策略更新等多个步骤。

下面是一个简化的近端策略优化（PPO）算法的PyTorch实现，适用于连续动作空间。这个例子将不涉及具体的任务（如情感分析），而是展示如何实现PPO算法的基本框架。


import torch

import torch.nn as nn

import torch.optim as optim

from torch.distributions import Normal



# 定义策略网络

class PolicyNetwork(nn.Module):

def __init__(self, state_dim, action_dim):

super(PolicyNetwork, self).__init__()

self.fc1 = nn.Linear(state_dim, 64)

self.fc2 = nn.Linear(64, 32)

self.fc3 = nn.Linear(32, action_dim)



def forward(self, state):

x = torch.relu(self.fc1(state))

x = torch.relu(self.fc2(x))

mean = self.fc3(x)

log_std = torch.zeros_like(mean)

return mean, log_std



# 定义值函数网络

class ValueNetwork(nn.Module):

def __init__(self, state_dim):

super(ValueNetwork, self).__init__()

self.fc1 = nn.Linear(state_dim, 64)

self.fc2 = nn.Linear(64, 32)

self.fc3 = nn.Linear(32, 1)



def forward(self, state):

x = torch.relu(self.fc1(state))

x = torch.relu(self.fc2(x))

value = self.fc3(x)

return value



# PPO算法实现

class PPO:

def __init__(self, state_dim, action_dim, lr_actor, lr_critic, gamma, K_epochs, eps_clip):

self.policy = PolicyNetwork(state_dim, action_dim)

self.value = ValueNetwork(state_dim)

self.optimizer_actor = optim.Adam(self.policy.parameters(), lr=lr_actor)

self.optimizer_critic = optim.Adam(self.value.parameters(), lr=lr_critic)

self.gamma = gamma

self.K_epochs = K_epochs

self.eps_clip = eps_clip



def select_action(self, state):

with torch.no_grad():

mean, log_std = self.policy(state)

std = torch.exp(log_std)

normal = Normal(mean, std)

action = normal.sample()

return action



def update(self, memory):

# 抽取数据

old_states = torch.stack(memory.states).detach()

old_actions = torch.stack(memory.actions).detach()

old_logprobs = torch.stack(memory.logprobs).detach()

rewards = torch.stack(memory.rewards).detach()

dones = torch.stack(memory.dones).detach()

rewards = (rewards - rewards.mean()) / (rewards.std() + 1e-5)



# 更新值函数网络

for _ in range(self.K_epochs):

values = self.value(old_states)

advantages = rewards + self.gamma * self.value(old_states) * (1 - dones) - values

value_loss = advantages.pow(2).mean()

self.optimizer_critic.zero_grad()

value_loss.backward()

self.optimizer_critic.step()



# 更新策略网络

for _ in range(self.K_epochs):

mean, log_std = self.policy(old_states)

std = torch.exp(log_std)

normal = Normal(mean, std)

logprobs = normal.log_prob(old_actions)



ratios = torch.exp(logprobs - old_logprobs)

advantages = rewards + self.gamma * self.value(old_states) * (1 - dones) - self.value(old_states)

surr1 = ratios * advantages

surr2 = torch.clamp(ratios, 1 - self.eps_clip, 1 + self.eps_clip) * advantages

policy_loss = -torch.min(surr1, surr2).mean()



self.optimizer_actor.zero_grad()

policy_loss.backward()

self.optimizer_actor.step()复制代码

在这个实现中，我们定义了一个策略网络（PolicyNetwork）和一个值函数网络（ValueNetwork）。PPO算法类（PPO）包含了选择动作（select_action）和更新模型（update）的方法。

update方法中的主要步骤如下：

从经验池（memory）中抽取数据。
对奖励进行标准化处理。
更新值函数网络，通过最小化优势函数的平方。
更新策略网络，通过最大化策略梯度，同时使用截断的Clipped Surrogate Objective来提高稳定性。

请注意，这个例子假设你有一个经验池（memory）对象，它包含了状态（states）、动作（actions）、旧的对数概率（logprobs）、奖励（rewards）和是否结束的标志（dones）。

这个实现是连续动作空间的情况&，对于离散动作空间，你需要修改策略网络的输出和动作选择方法，以及相应的损失。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从需求场景出发的AI应用项目落地方法论

2025-09-19

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

sora2官方提示词

2025-10-09

大家都在问

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

什么是上下文工程？

2025-12-11

Apple 入局 RAG：深度解析 CLaRa 框架，如何实现 128x 文档语义压缩？

2025-12-10

Human In the Loop竟然可以是个MCP?

2025-12-09

AI会消灭搜索吗？

2025-12-08

企业在本地部署大语言模型，如何构建网络信息安全防护体系？

2025-12-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

	from transformers import BertTokenizer

	tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

	# 假设 texts 和 labels 已经准备好
	texts = ["这个产品非常好", "服务太差了", ...]
	labels = [1, 0, ...]# 1 表示正面，0 表示负面

	# 对数据进行编码
	encoding = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
	input_ids = encoding['input_ids']
	attention_mask = encoding['attention_mask']

	from transformers import BertForSequenceClassification

	model = BertForSequenceClassification.from_pretrained('bert-base-chinese')

	class RewardModel(nn.Module):
	def __init__(self):
	super().__init__()
	self.layer = nn.Linear(768, 1)# 假设BERT的输出是768维

	def forward(self, pooled_output):
	return self.layer(pooled_output)

	reward_model = RewardModel()

	import torch.optim as optim

	# 定义优化器
	optimizer = optim.Adam(model.parameters(), lr=1e-5)
	ppo_optimizer = optim.Adam(model.parameters(), lr=1e-5)# PPO的优化器

	# 模型训练
	for epoch in range(num_epochs):
	for batch in dataloader:
	# 获取输入
	input_ids, attention_mask, labels = batch

	# 预训练模型前向传播
	outputs = model(input_ids=input_ids, attention_mask=attention_mask)
	pooled_output = outputs.pooler_output

	# 奖励模型前向传播
	reward = reward_model(pooled_output).squeeze(-1)

	# 使用PPO算法更新模型
	# 注意：这里没有给出完整的PPO算法实现，需要自己根据PPO算法细节进行实现
	ppo_loss = calculate_ppo_loss(reward, labels)
	ppo_loss.backward()
	ppo_optimizer.step()

	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.distributions import Normal

	# 定义策略网络
	class PolicyNetwork(nn.Module):
	def __init__(self, state_dim, action_dim):
	super(PolicyNetwork, self).__init__()
	self.fc1 = nn.Linear(state_dim, 64)
	self.fc2 = nn.Linear(64, 32)
	self.fc3 = nn.Linear(32, action_dim)

	def forward(self, state):
	x = torch.relu(self.fc1(state))
	x = torch.relu(self.fc2(x))
	mean = self.fc3(x)
	log_std = torch.zeros_like(mean)
	return mean, log_std

	# 定义值函数网络
	class ValueNetwork(nn.Module):
	def __init__(self, state_dim):
	super(ValueNetwork, self).__init__()
	self.fc1 = nn.Linear(state_dim, 64)
	self.fc2 = nn.Linear(64, 32)
	self.fc3 = nn.Linear(32, 1)

	def forward(self, state):
	x = torch.relu(self.fc1(state))
	x = torch.relu(self.fc2(x))
	value = self.fc3(x)
	return value

	# PPO算法实现
	class PPO:
	def __init__(self, state_dim, action_dim, lr_actor, lr_critic, gamma, K_epochs, eps_clip):
	self.policy = PolicyNetwork(state_dim, action_dim)
	self.value = ValueNetwork(state_dim)
	self.optimizer_actor = optim.Adam(self.policy.parameters(), lr=lr_actor)
	self.optimizer_critic = optim.Adam(self.value.parameters(), lr=lr_critic)
	self.gamma = gamma
	self.K_epochs = K_epochs
	self.eps_clip = eps_clip

	def select_action(self, state):
	with torch.no_grad():
	mean, log_std = self.policy(state)
	std = torch.exp(log_std)
	normal = Normal(mean, std)
	action = normal.sample()
	return action

	def update(self, memory):
	# 抽取数据
	old_states = torch.stack(memory.states).detach()
	old_actions = torch.stack(memory.actions).detach()
	old_logprobs = torch.stack(memory.logprobs).detach()
	rewards = torch.stack(memory.rewards).detach()
	dones = torch.stack(memory.dones).detach()
	rewards = (rewards - rewards.mean()) / (rewards.std() + 1e-5)

	# 更新值函数网络
	for _ in range(self.K_epochs):
	values = self.value(old_states)
	advantages = rewards + self.gamma * self.value(old_states) * (1 - dones) - values
	value_loss = advantages.pow(2).mean()
	self.optimizer_critic.zero_grad()
	value_loss.backward()
	self.optimizer_critic.step()

	# 更新策略网络
	for _ in range(self.K_epochs):
	mean, log_std = self.policy(old_states)
	std = torch.exp(log_std)
	normal = Normal(mean, std)
	logprobs = normal.log_prob(old_actions)

	ratios = torch.exp(logprobs - old_logprobs)
	advantages = rewards + self.gamma * self.value(old_states) * (1 - dones) - self.value(old_states)
	surr1 = ratios * advantages
	surr2 = torch.clamp(ratios, 1 - self.eps_clip, 1 + self.eps_clip) * advantages
	policy_loss = -torch.min(surr1, surr2).mean()

	self.optimizer_actor.zero_grad()
	policy_loss.backward()
	self.optimizer_actor.step()