返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RLHF 是如何工作的 ?

[复制链接]
链载Ai 显示全部楼层 发表于 前天 10:10 |阅读模式 打印 上一主题 下一主题

基于人类反馈的强化学习(RLHF)是一种机器学习(ML)技术,它利用人类反馈来优化 ML 模型,从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策,使其结果更加准确。RLHF 将人类反馈纳入奖励功能,因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。RLHF 广泛应用于生成式人工智能(生成式 AI)应用程序,包括大型语言模型(LLM)。
RLHF 是如何工作的?
1. 给定
奖励模型 (RM) , 大型语言模型 (LLM),两组 (提示,下一个词) 。
训练奖励模型 (RM)
目标:学习为赢家提供更高的奖励
2. 偏好
审查这两组词并挑选 "赢家";(文档是,他) < (文档是,他们) 因为前者有性别歧视。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18px;letter-spacing: 0.034em;">3-6计算词组 1 (输家) 的奖励

3. 词嵌入
将词转换为词嵌入作为奖励模型 (RM) 的输入
4. 线性层
将输入向量与奖励模型的权重和偏差 (4x4 矩阵) 相乘
输出:特征向量
5. 平均池
将特征与列向量 [1/3, 1/3, 1/3] 相乘,达到跨三个位置对特征进行平均的效果
输出:句子嵌入向量
6. 输出层
将句子嵌入向量与权重和偏差 (1x5 矩阵) 相乘
输出:奖励 = 3
7. 词组 2 (赢家) 的奖励
重复步骤 [3]-[6]
输出:奖励 = 5
8. 赢家 vs. 输家奖励

计算赢家和输家奖励的差值

奖励模型希望这个差距尽可能大且为正数

5 - 3 = 2

9. 损失梯度
将奖励差距映射为概率值作为预测: σ(2) ≈ 0.9
通过预测 - 目标计算损失梯度: 0.9 - 1 = -0.1
目标是 1,因为我们想要最大化奖励差距。
运行反向传播和梯度下降来更新奖励模型的权重和偏差 (紫色边框)
调整 LLM
目标:更新权重以最大化奖励
10. 提示 -> 词嵌入
这个提示从未直接接收过人类反馈
[S] 是特殊的开始符号
11. Transformer
注意力机制 (黄色)
前馈网络 (4x2 权重和偏差矩阵)
输出:3 个 "转换后" 的特征向量,每个位置一个
12. 输出概率
对每个转换后的特征向量应用线性层将其映射到词汇表上的概率分布。
13. 采样
应用贪婪算法,即选择分数最高的词
对于输出 1 和 2,模型准确地预测了下一个词
对于第三个输出位置,模型预测了 "him"
14. 奖励模型
将新词组 (CEO 是, him) 输入到奖励模型
过程与步骤 [3]-[6] 相同
输出:奖励 = 3
15. 损失梯度
我们将损失设置为奖励的负值。
损失梯度只是一个常数 -1。
运行反向传播和梯度下降来更新 LLM 的权重和偏差 (红色边框)

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ