强化学习概述强化学习(reinforcement learning,RL)专注于让智能体(agent)通过与环境的交互来学习如何做出决策,以使其在不断变化且不确定的环境中获得最大的累积奖励。  智能体(Agent)根据t时刻环境的状态,来决定此刻要做出的行为(Action),当行为作用到环境(Environment)上的时候,会对t时刻的环境状态做出改变,同时环境会对智能体的行为做出奖惩(Reward)。 也就是说智能体会与环境进行交互,在交互的过程中,智能体根据t时刻的环境给出Action,环境根据Action给出下一时刻,即t+1时刻的状态,同时也对智能体在t时刻给出的Action做出一个奖惩,即Reward。 “智能体(Agent):智能体是执行动作并与环境进行交互的实体。它可以是一个机器人、一个虚拟角色、一个算法等。 环境(Environment):环境包括智能体所处的所有上下文,包括外部条件、状态变量和其他影响智能体的因素。 动作(Action):智能体可以在环境中执行的操作,这些操作可能会改变环境的状态。 状态(State):状态是描述环境的当前情况的信息。智能体的决策通常依赖于当前状态。 奖励(Reward):在每个时间步,智能体执行一个动作后会获得一个奖励信号,用于指示动作的好坏。目标是最大化累积奖励。 策略(Policy):策略定义了智能体如何根据当前状态选择动作。强化学习的目标之一是找到一个最优策略,使智能体能够获得最大的累积奖励。 价值函数(Value Function):价值函数衡量了在某个状态下执行某个策略能够获得的预期累积奖励。这个函数帮助智能体评估不同状态的重要性。 学习过程:强化学习的核心是智能体通过尝试不同的动作并观察奖励信号来学习适应性策略。它可以使用不同的算法,如Q-learning、Deep Q-Networks(DQN)、Policy Gradient等。 RLHF概述RLHF主要包括三步: - 在有监督微调模型基础上创建一个reward model(RM)模型;
两者的联系RLHF与强化学习本身就是有非常强的关联性,可以说,RLHF是基于LLM下的RL;以LLM的技术点(微调、海量数据预训练、transformers算法机制)等结合RL算法理论,衍生出LLM下的RLHF。 两者的特点及联系如下:
- RLHF 在传统强化学习的基础上,引入了人类反馈(HF)。通常,强化学习中的奖励信号是由环境自动给出的,但在 RLHF 中,人类可以对智能体(agent)的行为进行评价和反馈,这些反馈可以作为奖励信号来指导智能体的学习。
- 例如,LLM微调时,偏好数据集的准备就是一个人类反馈收集的过程;在训练一个聊天机器人时,人类可以对机器人的回答进行评价,如 “好”、“不好”、“非常好” 等。这些人类反馈可以转化为奖励信号,让机器人学习如何生成更符合人类期望的回答。
|