链载Ai

标题: 颠覆!强化学习不再是微调专利,微软直接将其用于基模训练 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 颠覆!强化学习不再是微调专利,微软直接将其用于基模训练

一句话概括,强化学习不做微调这道“餐后甜点”了,RPT 直接把它变成预训练的“主食”,拿语料原文当答案,对了奖,错了罚,让模型从基础上就“长脑子”。

第一阶段:识别核心概念

想象一下,目前绝大多数LLM就像一个疯狂“刷题”的学生,它的学习方式(预训练)就是不断地做“填空题”——给定上文,预测下一个词(Next-Token Prediction)。这种方法很有效,能让模型记住海量知识和语言模式,但它可能更多是记住了表面关联,而非真正的理解和推理。另一方面,我们知道强化学习(Reinforcement Learning, RL)像一位教练,通过“奖励”和“惩罚”来训练模型完成特定任务或对齐人类偏好,能有效提升模型的推理能力,但这通常用在微调(Fine-tuning)阶段,并且需要昂贵的人工标注数据或特定领域的问答数据,规模很难做大。

这篇论文,就是想把这两者结合起来,提出了一种叫做Reinforcement Pre-Training (RPT)的新方法。

论文动机分析

论文的出发点,是想解决现有技术路线的两个核心痛点:

论文主要贡献点分析

主要创新点

关键技术或方法

显著性结果

理解难点识别

关键概念/方法

最具挑战性的部分

最难理解的可能是这个**“范式转换” (Paradigm Shift)**:如何把“预测下一个词”这个看似简单的模仿任务,硬核地套进强化学习的框架。读者需要理解: * 状态(State) = 当前的上文。 * 动作(Action) = 生成一整段的 (思考过程token序列 + 最终预测token)。 * 轨迹(Trajectory) = 从状态开始,执行完一个动作的全过程。 * 奖励(Reward) = 只在轨迹结束时,根据最终预测的token是否与真实token匹配来给予的一个稀疏奖励 (0或1)。 * 策略(Policy)= 模型本身,它决定了给定状态下,生成何种“思考+预测”轨迹的概率分布。 RL的目标是调整策略(模型参数),最大化累积奖励的期望值。这与NTP最大化每个位置上正确词的对数概率,是完全不同的优化目标和过程。

需要重点解释的核心概念

RPT的核心机制循环:即如何将“下一个词预测”重构为基于RL的“下一个词推理任务”,包括:模型如何生成带思考过程的多个轨迹 (Rollout),如何基于语料库的真实词定义简单可验证的奖励 (Reward),以及如何通过RL更新模型 (RL Update)。(对应论文图3和公式3、4)。

概念依赖关系

概念关系梳理

最佳切入点

从对比开始是最好的:先描绘读者熟悉的“标准下一个词预测(NTP)”是如何工作的,然后引出论文的创新点——如果让模型在预测前先“思考一下”,并根据预测结果的对错给予“奖励”,会怎么样? 即对比 “NTP” 与 “Next-Token Reasoning + RL reward”, 这就自然地引出了我们需要重点解释的核心机制。


第二阶段:深入解释核心概念

理解了RPT的“野心”之后,我们现在来啃最硬的骨头,也是这篇论文本质的创新所在:它到底是怎么把预测下一个词,变成一个强化学习游戏的?我们将聚焦于最核心的概念:RPT的核心机制:如何将“下一个词预测”重构为基于RL的“下一个词推理任务”(生成思考轨迹 -> 定义奖励 -> RL更新)。

生活化比喻:学徒写诗与师傅批改

让我们想象一个场景:一位书法学徒正在学习续写古诗。他的师傅手里有一本完整的《唐诗三百首》(预训练语料库)。

  1. 不能直接写答案。
  2. 拿几张草稿纸(比如8张,即个Rollouts)。
  3. 在每张草稿纸上,先写下自己的**思考过程 (Reasoning/Chain-of-Thought,),最后再写下推导出的下一个字 (Prediction,)**。
  4. 师傅拿到这8份草稿,他只看每份草稿最后的那个“结论字”。
  5. 师傅打开《唐诗三百首》,标准答案的下一个字是“疑”(**Ground-Truth,**)。
  6. 师傅**批改 (Reward,)**:
  7. 学习反馈 (RL Update):学徒收到反馈后,他会自我调整: “哦!原来‘意境清冷,可能是怀疑’这个思考路径能得到红花!下次遇到类似场景,我要多往这个方向想。而‘像霜’和‘顺口溜’的思路得不到红花,要少用。” 学徒的目标不是猜测字本身,而是学习发展出一套能稳定获得“大红花”的思考方法

这个比喻展示了核心机制:面对同一个上文,产生多种“思考+结论”的尝试,根据结论是否匹配客观标准答案给予简单奖励,最终强化那些能导出正确结论的思考路径。

建立比喻与实际技术的对应关系

下面我们把比喻中的元素和技术概念一一对应起来:

比喻中的关键元素
对应的实际技术概念
对应关系合理的解释
学徒
大语言模型 (LLM), 策略 Policy
模型就像学徒,根据当前状态(上文)生成动作(思考+预测),并通过奖励来学习和调整自身参数。
师傅和《唐诗三百首》
预训练语料库 & 奖励计算机制
语料库提供了上下文和客观的标准答案(Ground Truth),奖励机制根据模型输出和标准答案自动计算奖励。
诗的上半句 "床前明月光,"
上下文 Context ()
这是模型进行预测的输入,即强化学习中的状态 State。
《唐诗三百首》中的下一个字 "疑"
真实的下一个词/序列 Ground-Truth (或)
用于验证模型预测正确性的客观标准。
拿出多张 (G=8) 草稿纸尝试
生成多个轨迹 Rollout / Sampling G responses ${o_t^i}{i=1}^G \sim \pi\theta(\cdot
x_{\lt t})$
草稿上的思考过程 ("意境清冷...")
推理序列/思维链 Chain-of-thought reasoning sequence ()
模型在输出最终答案前生成的中间token,代表其“思考”。
草稿上最终写下的结论字 ("疑")
模型预测的下一个词/序列 Prediction ()
模型经过“思考”后,最终输出的用于和标准答案对比的结果。
一整张草稿 (思考过程+结论字)
一个完整的响应/轨迹 Response / Trajectory
从状态输入到最终输出和奖励评估的完整单元。
师傅对照答案给“大红花” (1或0)
可验证奖励信号 Reward Signal () (公式 3)
基于预测是否与真实匹配,给出的简单、客观、二元的奖励。论文中使用前缀匹配奖励。
学徒调整思考方法,争取更多红花
强化学习更新 RL Update (公式 4), 调整参数
模型根据收到的奖励,通过RL算法(如论文用的GRPO)更新参数,使得未来生成高奖励轨迹(即正确的思考+预测)的概率增加。
(师傅只让学徒续写难的诗句)
基于熵的数据过滤 (Entropy-based data filtering)
论文中会过滤掉那些太容易预测的词,让模型集中精力学习那些需要思考才能预测对的词。

深入技术细节

现在,我们从“学徒写诗”过渡到实际的技术原理和数学公式。核心在于奖励定义和优化目标。

我们先对比一下传统的NTP目标(论文公式1):

现在看RPT的核心:

关键技术1:奖励信号的定义 (Reward)

模型生成了个轨迹。我们需要给每个轨迹一个奖励。论文设计了“前缀匹配奖励”(prefix matching reward)。为什么要这么复杂,不直接比较和呢?因为模型预测的可能包含多个token,或者涉及到词表外的词,直接按token比较不方便,所以转换到字节(byte)层面,并检查是否匹配真实序列的一个合法前缀。

  1. 将模型预测和真实后续文本都转成字节序列和。
  2. 检查预测的字节序列是否严格等于真实字节序列的开头部分。
  3. 检查预测字节序列的长度,是否对应真实序列中某个完整 token 的结束位置 (比如不能只匹配了半个token)。
  4. 两个条件都满足,奖励为1,否则为0。这是一个非常清晰、客观、二元的信号。

关键技术2:RPT的优化目标 (Objective)

有了奖励,模型的目标就是通过RL最大化期望奖励。

  1. 从数据集采样一个上下文和真实后续。
  2. 模型基于生成条轨迹。
  3. 根据公式3计算每条轨迹的奖励。
  4. 使用RL算法(论文是GRPO,一种on-policy算法),利用这些 (状态, 动作/轨迹, 奖励) 来计算梯度,更新模型参数。更新的方向是:让未来产生奖励为1的轨迹的概率增大,让产生奖励为0的轨迹的概率减小。模型学习的不仅仅是输出,而是学习生成整个的过程。

将技术细节与比喻相互映射

总结

核心联系在于:“学徒写诗”的比喻,生动地展示了RPT如何通过“探索”(多份草稿)、“客观评估”(对照答案给红花)和“反馈学习”(强化得红花的思路),来训练模型。


第三阶段:详细说明流程步骤

理解了RPT的核心机制和比喻后,现在我们来“按部就班”地拆解一下,如果我们要实现RPT,整个数据流和处理过程具体是什么样子的。

以下是 Reinforcement Pre-Training (RPT) 方案处理问题的完整流程:整个流程可以分为准备阶段和循环训练阶段。

准备阶段 (Pre-computation / Setup)

输入准备

语料过滤处理 (可选,但论文采用)

超参数设定

设定强化学习算法(如GRPO/PPO)的学习率、批大小(Batch Size)、每个上下文生成轨迹的数量(论文中)、采样温度 Temperature (控制探索性,论文中 0.8)、最大长度等。

循环训练阶段 (Training Loop)

该阶段会迭代执行很多步 (Steps),每一步包含以下流程:

数据采样 (Batch Sampling)

轨迹生成 (Rollout Generation / On-Policy Sampling)

奖励计算 (Reward Calculation)

模型参数更新 (Policy Update)

循环: 不断重复步骤 数据采样 -> 轨迹生成 -> 奖励计算 -> 模型参数更新 ,直到达到预设的训练步数或收敛。

评估阶段 (Evaluation)

训练结束后:


第四阶段:实验设计与验证分析

一个新方法的提出,必须经过实验的千锤百炼才能站稳脚跟。现在我们就化身审稿人,来审视一下 RPT 这篇论文的实验部分,看看作者是如何构建证据链条,来证明 RPT 是先进且有效的。

主实验设计解读:核心论点的验证

论文的核心主张

RPT作为一种新的预训练范式,能够: (1) 提升模型的基础语言建模能力(即下一个词预测的准确率); (2) 激发模型的推理能力; (3) 为后续的RL微调提供更好的基础; (4) 具备良好的计算扩展性(Scaling property)。

主实验设计与选择合理性分析

作者设计了几个关键实验来直接回应这些主张:

我们来看选择的合理性:

数据集 (Datasets)
评价指标 (Metrics)
基线方法 (Baselines)
  1. 与同尺寸Base模型(14B)对比,证明RPT方法本身的增益。
  2. 特别加入Base模型在“推理模式”下的对比,是为了排除性能提升仅仅来源于“测试时进行思考”这个形式,而非RPT训练过程本身 (消融实验的思想)。
  3. 与更大的模型(32B)对比,是为了展示RPT的效率,看14B的RPT模型能否匹敌甚至超越未经RPT训练的更大模型,这具有很强的说服力。
  4. 在Table 2中,还加入了+ Continual NTP training基线,即在相同数据上继续用传统NTP方法训练Base模型,证明了效果提升不是因为简单地“在OmniMATH数据上多训练了一会”,而是因为RPT这种训练“方式”本身。

主实验结果如何支撑核心贡献

消融实验分析:内部组件的贡献

严格意义上,论文没有一个典型的、逐个移除模块的 "Ablation Study" 表格。但是,作者通过巧妙的对比实验起到了消融实验的效果,验证了关键设计的必要性:

关键模块/设计 1: RPT训练过程本身 (vs. 仅在推理时思考)

关键模块/设计 2: 训练目标的类型 (RPT的RL目标 vs. 传统NTP目标)

(附录A) 奖励函数设计

论文在附录中提到,他们尝试了不同的奖励函数设计(如只匹配第一个token,稠密奖励等),发现性能与提出的前缀匹配奖励相当。这表明RPT框架对于奖励函数的具体细节选择具有一定的鲁棒性,其核心优势可能更多来源于“将NTP重构为RL任务”这个框架本身,只要奖励是基于正确性的即可。

深度/创新性实验剖析:洞察方法的内在特性

除了常规对比和消融性质的实验,作者设计了两个非常巧妙的实验来提供更深入的洞见:

巧妙实验 1: 推理模式分析 (Reasoning Pattern Analysis - Figure 6, Table 4, Appendix F)

  1. 定义6种推理模式类型(Transition, Reflection, Breakdown, Hypothesis, Divergent, Deduction)及其关键词。
  2. 对比两个模型:RPT-14B(执行下一个词推理任务)和 Base 14B 模型(执行标准数学问题求解任务)。
  3. 统计两模型生成的思考过程中,各类推理模式关键词出现的比例 (Figure 6)。
  4. 展示RPT-14B具体的思考过程文本样例 (Table 4 和 Case Studies),进行定性分析。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5