微信扫码
添加专属顾问
我要投稿
强化学习(reinforcement learning,RL)专注于让智能体(agent)通过与环境的交互来学习如何做出决策,以使其在不断变化且不确定的环境中获得最大的累积奖励。
智能体(Agent)根据t时刻环境的状态,来决定此刻要做出的行为(Action),当行为作用到环境(Environment)上的时候,会对t时刻的环境状态做出改变,同时环境会对智能体的行为做出奖惩(Reward)。
也就是说智能体会与环境进行交互,在交互的过程中,智能体根据t时刻的环境给出Action,环境根据Action给出下一时刻,即t+1时刻的状态,同时也对智能体在t时刻给出的Action做出一个奖惩,即Reward。
“智能体(Agent):智能体是执行动作并与环境进行交互的实体。它可以是一个机器人、一个虚拟角色、一个算法等。
环境(Environment):环境包括智能体所处的所有上下文,包括外部条件、状态变量和其他影响智能体的因素。
动作(Action):智能体可以在环境中执行的操作,这些操作可能会改变环境的状态。
状态(State):状态是描述环境的当前情况的信息。智能体的决策通常依赖于当前状态。
奖励(Reward):在每个时间步,智能体执行一个动作后会获得一个奖励信号,用于指示动作的好坏。目标是最大化累积奖励。
策略(Policy):策略定义了智能体如何根据当前状态选择动作。强化学习的目标之一是找到一个最优策略,使智能体能够获得最大的累积奖励。
价值函数(Value Function):价值函数衡量了在某个状态下执行某个策略能够获得的预期累积奖励。这个函数帮助智能体评估不同状态的重要性。
学习过程:强化学习的核心是智能体通过尝试不同的动作并观察奖励信号来学习适应性策略。它可以使用不同的算法,如Q-learning、Deep Q-Networks(DQN)、Policy Gradient等。
RLHF主要包括三步:
RLHF与强化学习本身就是有非常强的关联性,可以说,RLHF是基于LLM下的RL;以LLM的技术点(微调、海量数据预训练、transformers算法机制)等结合RL算法理论,衍生出LLM下的RLHF。
两者的特点及联系如下:
“这里的智能体(agent)即基座LLM。
RLHF中的很多概念实现本就来源于RL,只是基于LLM技术实现而已,将各个概念基于LLM模型训练实现。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
Cursor是越来越难用了!逼着我写mdc文档比代码还多
2025-04-01
Docker部署Dify+RAGFlow避坑指南
2025-04-01
大型语言模型如何高效微调量化?答案就是 QLoRA!
2025-04-01
LLaMA Factory微调后的大模型在vLLM框架中对齐对话模版
2025-04-01
AI大模型分布式训练技术原理是什么?看这篇超犀利解析!
2025-04-01
大模型部署该选谁?Ollama、vLLM 和 LMDeploy,各有千秋!
2025-04-01
【强烈建议收藏】一文读懂大模型训练的通信原语
2025-04-01
为什么你的Cursor效率不如我
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11