聊聊大模型技术演进的思考——强化学习与RLHF

显示全部楼层

强化学习概述

强化学习（reinforcement learning，RL）专注于让智能体（agent）通过与环境的交互来学习如何做出决策，以使其在不断变化且不确定的环境中获得最大的累积奖励。

智能体(Agent)根据t时刻环境的状态，来决定此刻要做出的行为(Action)，当行为作用到环境(Environment)上的时候，会对t时刻的环境状态做出改变，同时环境会对智能体的行为做出奖惩(Reward)。

也就是说智能体会与环境进行交互，在交互的过程中，智能体根据t时刻的环境给出Action，环境根据Action给出下一时刻，即t+1时刻的状态，同时也对智能体在t时刻给出的Action做出一个奖惩，即Reward。

“
智能体（Agent）：智能体是执行动作并与环境进行交互的实体。它可以是一个机器人、一个虚拟角色、一个算法等。
环境（Environment）：环境包括智能体所处的所有上下文，包括外部条件、状态变量和其他影响智能体的因素。
动作（Action）：智能体可以在环境中执行的操作，这些操作可能会改变环境的状态。
状态（State）：状态是描述环境的当前情况的信息。智能体的决策通常依赖于当前状态。
奖励（Reward）：在每个时间步，智能体执行一个动作后会获得一个奖励信号，用于指示动作的好坏。目标是最大化累积奖励。
策略（Policy）：策略定义了智能体如何根据当前状态选择动作。强化学习的目标之一是找到一个最优策略，使智能体能够获得最大的累积奖励。
价值函数（Value Function）：价值函数衡量了在某个状态下执行某个策略能够获得的预期累积奖励。这个函数帮助智能体评估不同状态的重要性。
学习过程：强化学习的核心是智能体通过尝试不同的动作并观察奖励信号来学习适应性策略。它可以使用不同的算法，如Q-learning、Deep Q-Networks（DQN）、Policy Gradient等。

RLHF概述

RLHF主要包括三步：

在预训练好的模型上进行「有监督微调」（SFT）；
在有监督微调模型基础上创建一个reward model（RM）模型；
基于RM模型使用PPO算法微调SFT模型；

两者的联系

RLHF与强化学习本身就是有非常强的关联性，可以说，RLHF是基于LLM下的RL；以LLM的技术点（微调、海量数据预训练、transformers算法机制）等结合RL算法理论，衍生出LLM下的RLHF。

两者的特点及联系如下：

引入人类反馈

RLHF 在传统强化学习的基础上，引入了人类反馈（HF）。通常，强化学习中的奖励信号是由环境自动给出的，但在 RLHF 中，人类可以对智能体（agent）的行为进行评价和反馈，这些反馈可以作为奖励信号来指导智能体的学习。
例如，LLM微调时，偏好数据集的准备就是一个人类反馈收集的过程；在训练一个聊天机器人时，人类可以对机器人的回答进行评价，如 “好”、“不好”、“非常好” 等。这些人类反馈可以转化为奖励信号，让机器人学习如何生成更符合人类期望的回答。

加速学习过程

人类反馈可以帮助智能体（agent）更快地学习到有效的策略。相比于完全依赖环境（Environment）自动生成的奖励信号，人类反馈通常更具有指导性和准确性，可以让智能体（agent）更快地朝着符合人类期望的方向发展。
例如，在一个复杂的游戏环境中，智能体（agent）可能需要很长时间才能通过试错学习到有效的策略。但如果有人类玩家提供反馈，告诉智能体（agent）哪些行动是好的，哪些是不好的，智能体（agent）就可以更快地学习到游戏的规则和策略。这也是LLM微调训练的直接表现与结果。

提高性能和适用性

通过引入人类反馈，RLHF 可以提高智能体（agent）的性能和适用性。人类反馈可以让智能体（agent）学习到更符合人类价值观和期望的行为，从而在实际应用中更加有用。
例如，在自动驾驶领域，人类司机的反馈可以帮助自动驾驶汽车学习到更安全、更舒适的驾驶策略。在医疗领域，医生的反馈可以让医疗机器人学习到更准确、更有效的诊断和治疗方法。

“
这里的智能体（agent）即基座LLM。

RLHF中的很多概念实现本就来源于RL，只是基于LLM技术实现而已，将各个概念基于LLM模型训练实现。