链载Ai

标题: 微调之后还能做什么?大模型后训练全链路技术解析 [打印本页]

作者: 链载Ai    时间: 昨天 21:50
标题: 微调之后还能做什么?大模型后训练全链路技术解析

什么是后训练?

后训练(Post-Training)是指在预训练模型的基础上,针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调(Fine-tuning)和对齐 (Alignment),即调整预训练模型的参数以适应新的任务。

黑色: 预训练阶段

红色: 后训练阶段

紫色: 推理测试阶段

为什么要进行后训练?

Post-training重要性-后训练扩展律Post-training scaling laws 已经出现

Pre-traing阶段的scaling law

GPT(Generative Pretrained Transformer)系列是典型的自回归语言模型。在 GPT 模型中,它的生成过程是基于自回归机制。例如,在文本生成任务中,给定一个初始的输入文本序列(可以是一个单词、一个句子或一段话),模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”,模型会计算在这个序列之后不同单词(如 “runs”“jumps”“sleeps” 等)出现的概率,然后从这个概率分布中采样一个单词作为下一个生成的单词。


随着训练时的计算量和测试时的计算量的增加,模型性能也会随之提升。

常见大模型后训练流程

这里以Llama 3来示例:

1.持续通过人工标注或机造方式生成偏好pair样本,训练Reward Model;

2.基于当前能力最好的模型,随机采集一批{Prompt},每个Prompt拿最好的模型做K次数据生成采样,每个Prompt就得到K条<rompt,Responsek>数据;

3.拒绝采样:对第2步采样K个<rompt,Responsek>数据,用Reward Model打分,并从中选取打分最高topN条样本。作为指令微调的精选样本,训练SFT Model;

4.训完SFT Model,再通过持续收集的偏好对样本(同步骤1)做对齐学习(Llama使用的是DPO)。最终得到了一个比当前模型更好的模型;

5.持续做步骤1~步骤4,飞轮迭代优化模型。

训练数据

SFT data

采样模型多次,让RM选出最好的回复,作为SFT data的一部分。部分细节如下:

Preference data

微调 Fine-tuning

微调是指在预训练模型的基础上,使用特定任务的数据集进行进一步训练,以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。

SFT (Supvised Fine tuning ) 微调方法

全量微调 VS 部分微调

全量微调Full Fine-Tuning,FFT

是指在预训练模型的基础上,使用特定任务的数据集对模型的所有参数进行进一步训练,以使模型更好地适应特定任务或领域的过程。

部分微调 PEFT(parameter-efficient fine-tuning)参数高效微调

一种针对大型预训练模型的微调技术,旨在减少训练参数的数量,从而降低计算和存储成本,同时保持或提升模型性能仅微调模型中的一小部分参数,常见方法如下:

其中:

是预训练模型的原始权重矩阵。

A 和 B 是两个低秩矩阵,其维度远小于 W。

通过这种方式,LoRA 只需要更新 A 和 B 的参数,而不是整个 W。这显著减少了需要更新的参数数量,从而提高了微调的效率。

对齐 Alignment

对齐是指通过各种技术手段,使模型的输出与人类的偏好和价值观对齐,确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题,如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具,即可通过人类反馈强化学习(RLHF)(Reinforcement Learning from Human Feedback)的方式,通过训练奖励模型对齐模型输出与人类偏好,强化学习中需要用到的关键组成部分如下

1. 带有人类偏好反馈的标签数据

2. 奖励模型(Reward Model)-> 奖励信号

3. 强化学习策略优化算法

强化学习策略优化算法 DPO VS PPO VS GRPO

RHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法,常见的有以下几种:

其中是新旧策略概率之比,反映新旧策略的改进情况。

是优势估计值,反映智能体选择某个动作的好坏。

clip是剪辑机制,反映经过剪辑后的改进结果,防止进步过快或退步过多,保待稳定的训练过程。

选择最小值: 1)基于新策略直接计算出来的值,2)经过剪辑后的值,保持训练的稳定性。

强化学习 RM(Reward Model)奖励模型的优化思路

在传统的强化学习RL框架中,智能体通过与环境的交互来学习,以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题,RLHF(Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式,包括直接的奖励信号、排名反馈、偏好比较等。

注意reward model可能会被hacking的问题,可以将不同的reward model混在一起训练, 让模型训多轮后也比较难找到RM的漏洞。

推理阶段(Test-time computation)的优化思路:

快思考 -> 慢思考

微调(SFT) VS 强化学习(RL)

SFT->示范给模型怎么样做是对的

RL->在环境中不断的试错,累积奖励,理论上RL能榨干模型,能突破人类的上限,但reward要能写好

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

SFT 对 RL 训练的重要性:尽管 RL 在泛化方面表现出色,但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式,为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定,导致 RL 训练难以收敛或效果不佳。

以DeepSeek R1示例后训练

DeepSeek-R1

给后续的推理模型后训练很多启发,仅RL也可以得到非常好的推理效果。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5