传统的强化学习方法,比如GRPO(Group Response Policy Optimization),通常是让模型针对一个问题,生成一组(比如G个)候选答案,然后对这些答案进行评估,并根据评估结果统一调整模型的策略。这种方法虽然也能提升模型性能,但它并没有明确区分“好”答案和“坏”答案中的具体特质。特别是,它无法有效解决前面提到的“推理通胀”问题,因为模型在训练过程中,仍然会受到那些冗长答案的“污染”。
GFPO则更进了一步。它同样是让模型先生成一个包含G个候选答案的“大池子”,但接下来,它引入了一个关键的“过滤”步骤。它会根据一个预先设定的“度量标准” (metric),从这G个答案中,只挑选出最符合我们期望的k个(k < G)“精英”答案。然后,仅仅使用这k个精英答案来计算策略梯度,更新模型参数。
这个“度量标准”可以非常灵活,论文中重点探讨了两个核心指标:
通过这种“先筛选,再学习”的机制,GFPO相当于为模型提供了一个非常明确的“指挥棒”:“请学习这些既准确又简洁的榜样,而不是那些又臭又长的答案。”这种显式的过滤操作,就像一个严格的编辑,帮助模型在训练的早期阶段就剔除掉那些冗余、低效的推理路径,从而引导模型朝着更简洁、更高效的推理方式进化。
此外,论文还提出了GFPO的两个重要变体:
GFPO的核心创新在于,它通过一个简单而灵活的“过滤”机制,将我们对“好答案”(例如,简洁、高效)的期望,直接、显式地注入到强化学习的训练过程中,从而有效地抑制了推理通胀,实现了在不牺牲准确率的前提下,大幅缩短模型的推理长度。
要理解GFPO的技术细节,我们首先需要简单回顾一下它的前身——GRPO。GRPO的目标函数可以表示为:
这里的关键在于,它对从策略采样的G个响应是“一视同仁”的,每个响应都被用来计算优势,并最终影响策略的更新。
而GFPO的核心改动,就在于这个“一视同仁”上。GFPO的目标函数变为:
最大的区别在于优势函数的计算。在GFPO中,我们先走一步“过滤”棋:
1. 采/样 (Sampling):和GRPO一样,对于一个问题q,我们首先从当前策略中采样出一个包含G个候选答案的集合。
2. 评分 (Scoring):接下来,我们根据一个预设的度量函数metric(·)(比如答案长度或者令牌效率),为G中的每一个答案打分。
3. 排序与过滤 (Sorting & Filtering):根据分数,我们对这G个答案进行排序,并只选出排名前k的答案,形成一个“精英子集”。
4. 计算“精英优势” (Calculating Advantage within the Elite Set):最关键的一步来了。GFPO只在这个精英子集内部计算平均奖励和奖励的标准差。然后,用这个“精英圈”的统计数据来标准化每个精英答案的奖励,从而得到优势。对于那些没有被选入精英子集的答案,它们的优势直接被置为0,相当于在这次策略更新中被“无视”了。
通过这种方式,GFPO的梯度更新完全由这k个“精英答案”主导。模型学习的目标不再是模糊地提升所有G个答案的平均表现,而是非常明确地去模仿这k个被精心挑选出来的、符合我们特定偏好(例如,简短、高效)的“榜样”。
自适应难度GFPO的实现:这个变体增加了一个动态调整k值的环节。它通过一个轻量级的数据结构(t-digest)实时追踪模型在所有问题上的平均奖励,从而估计出当前问题的难度分位数。然后,根据难度分位数将问题划分为“简单”、“中等”、“困难”、“非常困难”四个等级,并为每个等级分配不同的k值。例如,对于简单问题,使用较小的k(如k=4),进行更严格的筛选;对于非常困难的问题,则使用较大的k(如k=8),保留更多的探索可能性。
论文通过在多个数学推理和代码生成基准测试(如AIME 25, AIME 24, GPQA, Omni-MATH, LiveCodeBench)上的详尽实验,充分证明了GFPO方法的有效性。
实验设置:
关键实验结果解读:
1. GFPO在不降低准确率的情况下,显著缩短了响应长度:
从论文的Table 1和Table 2中可以清晰地看到,在所有的测试基准上,几乎所有GFPO变体的准确率都与GRPO持平(统计上无显著差异),但是平均响应长度却大幅降低。例如,在AIME 24数据集上,“令牌效率”GFPO (Token Efficiency GFPO) 将响应长度从GRPO的13.3k个令牌,惊人地压缩到了10.6k个令牌,实现了高达84.6%的超额长度减少,而准确率几乎没有损失。这充分证明了GFPO能够有效实现“简洁推理”。
2. “令牌效率”是最高效的筛选标准:
实验结果一致表明,基于“奖励/长度”比值进行筛选的“令牌效率”GFPO,在削减长度方面表现最为出色。它在几乎所有任务上都取得了最高的ELR值。这说明,仅仅追求“最短”可能并非最优策略,而是一种兼顾了“质量”与“效率”的度量标准,更能引导模型学到真正简洁且高质量的推理方式。
3. 自适应难度GFPO实现了计算效率与性能的平衡:
与固定k值的GFPO相比,自适应难度GFPO在相同的计算成本下,表现出了更强的竞争力。它能够根据问题难度智能地分配“学习资源”,在难题上保留更多样本以保证准确率,在简单题上则大胆削减,从而在整体上达到了比固定策略更好的效果。例如,在多个基准上,自适应难度GFPO的表现都优于计算成本相当的Shortest k/G变体。
4. 采样更多(增大G),过滤更狠(降低k/G比率),效果更好:
论文通过对比不同G(总采样数)和k(保留数)的组合,发现了一个重要的规律:扩大初始的候选池子(增大G),然后以一个较低的比例进行筛选(例如保留25%-33%),是控制推理长度最有效的手段。这再次印证了“集思广益,优中选优”的直觉——你见过的“好学生”越多,你才越明白什么是真正的“好”。当G从8增加到16,甚至24时,GFPO在长度控制上的能力也随之增强。
5. GFPO在难题上表现尤为突出:
通过对不同难度问题的分析(Figure 6),论文发现GFPO在削减难题的响应长度方面效果尤其显著。对于“非常困难”的问题,GFPO能够将GRPO的冗长推理链大幅缩短,同时保持甚至略微提升准确率。这表明GFPO能够帮助模型在面对复杂挑战时,更快地找到核心解决路径,而不是陷入无效的“暴力尝试”。
总而言之,《Sample More to Think Less》这篇论文以其简洁而深刻的洞察,为我们打开了一扇新的大门。它提醒我们,在追求模型能力极限的道路上,有时需要的不是更强的“蛮力”,而是更精巧的“智慧”。教会AI如何进行简洁而高效的思考,将是其从“强大的工具”迈向“真正的智能伙伴”的关键一步。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |