链载Ai

标题: DeepSeek 背后的数学:GRPO [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: DeepSeek 背后的数学:GRPO

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">GRPO 的数学原理其实就像一套高效的评分系统,它帮助 DeepSeek 模型在一组回答中迅速找到最佳答案。通过比较每个回答与其他回答的优劣,模型能清楚地知道哪些回答更准确、更符合要求,从而不断调整和优化自己的策略。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这样一来,就不需要额外的评估器,既节省了计算资源,又能在实际应用中不断提高推理能力。

一、GRPO 的基础

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(51, 51, 51);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">1. 什么是 GRPO?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(51, 51, 51);">Group Relative Policy Optimization(GRPO)是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(51, 51, 51);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">2. 为什么需要 GRPO?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统强化学习方法(如ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(51, 51, 51);">Proximal Policy Optimization(PPO))在大语言模型推理任务中存在以下挑战:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(51, 51, 51);">依赖 Critic 模型

高计算成本

可扩展性问题

GRPO 如何应对这些挑战?

  1. 1.无需 Critic,降低成本GRPO 通过组内回答比较消除了对独立评估器的依赖,从而大幅降低了计算资源的需求。
  2. 2.相对评估机制它通过对比同一组回答的表现来衡量质量,而非单独打绝对分,这使得模型能够更直观地识别哪些回答更优。
  3. 3.高效训练,易于扩展聚焦于组内优势的计算,使得奖励估计过程更简单,进而使训练过程既高效又便于扩展到大规模模型上。

二、GRPO 的核心理念——相对评估

GRPO 的核心思想是相对评估,具体而言:

这种方法不仅提升了训练效率,还通过组内竞争不断推动模型优化推理能力,进而赋能 DeepSeek 在复杂任务中取得卓越表现。

三、解读 GRPO 目标函数

在 GRPO 中,目标函数决定了模型如何更新策略以生成更高质量的回答。下面我们逐步解析这一过程。

1. GRPO 目标函数概览

我们可以直观了解 GRPO 的目标函数如何构建。

2. 用简单的方式理解 GRPO 目标函数

可以把 GRPO 的目标函数看作一份教学指南,指导模型通过对比自己的回答不断改进。

下面通过一个类比来说明其工作原理:

目标类比

想象你正在教一群学生解一道数学题。你不直接告诉他们谁对谁错,而是把所有学生的答案进行比较,找出谁做得最好(以及原因何在),然后通过奖励优秀解法、改进不足之处来帮助他们提升。这正是 GRPO 的工作方式,只不过它教的是 AI 模型而非学生。

逐步解析

步骤 1:从查询开始

从训练数据集 P(Q) 中选取一个查询 (q)。

例子:假设查询是 “8 + 5 的和是多少?”

步骤 2:生成一组回答

模型为该查询生成一组 GGG 的回答。

例子:模型生成以下几个回答:

o1: “答案是 13。”

o2: “十三。”

o3: “是 12。”

o4: “和是 13。”

步骤 3:计算每个回答的奖励

奖励是什么?

奖励通过量化回答的质量来引导模型的学习。

GRPO 中的奖励类型:

  1. 1.准确性奖励:基于回答的正确性(例如,解答数学问题)。
  2. 2.格式奖励:确保回答符合结构性指南(例如,推理部分用
  3. 3.语言一致性奖励:对语言混杂或格式不一致的回答进行惩罚。

为每个回答分配奖励(ri),根据其好坏。奖励可能依赖于:

示例:

步骤 4:比较回答(组内优势)

简单理解就是这样:

步骤 5:使用剪枝更新策略

步骤 6:使用 KL 散度惩罚偏差

总结 GRPO 目标函数工作流程

  1. 1.为查询生成一组回答
  2. 2.基于准确性、格式等标准计算每个回答的奖励
  3. 3.在组内比较回答,计算每个回答的相对优势(Ai)
  4. 4.更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定
  5. 5.通过 KL 正则化,防止模型策略偏离预设基线

四、GRPO 的优势所在

为什么 GRPO 更有效?

现实生活中的类比

设想一群学生在解一道数学题:不是由老师单独评分,而是学生们相互比较答案,优秀者受到鼓励,落后者则从错误中学习。随着时间推移,全体学生水平逐步提高。这一过程正是 GRPO 训练 AI 模型的真实写照。

五、GRPO 与 PPO 的比较

下图展示了 GRPO 与传统 PPO 在不同维度上的对比,清晰地体现了 GRPO 在效率、稳定性和可扩展性上的优势。

六、DeepSeek 的成功实践

通过 GRPO,DeepSeek 在推理任务中取得了令人瞩目的成绩,具体体现在以下几个方面:

通过聚焦组内相对表现,GRPO 不仅为 DeepSeek 设定了推理和长文理解的新标杆,同时在效率与可扩展性方面也展现出卓越优势。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5