返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

周末竟然没人讨论:强化微调的意义被低估

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:57 |阅读模式 打印 上一主题 下一主题
周六凌晨OpenAI发布了强化微调(Reinforcement Fine-Tuning),大白话说就是:让用户基于自己领域的少量数据(几十条),就能塑造出一个强大的专家模型。整个过程非常简洁,自定义数据集、配置超参数,结束。不需要过去fine-tune微调那样的数据标注,而是反馈奖励。看到了人人快速塑造自己领域模型的可能。

初步结论:
1. 还记得o1-preview时候Noam Brown留了个悬念,让大家思考为什么o1-mini有时候表现比o1更好现在看很可能是做了强化微调。说明什么?模型参数真的不需要很大了...这不是蒸馏的问题了,是超大参数的“知识模型”过于冗余,专业领域的推理能力不需要那么多参数。
2.数据壁垒降低,中小企业的机会可能来了。之前的思考模式是:大模型时代的数据壁垒越来越高,数据成为差异化核心要素。但从RFT的使用方式看,小公司基于自己的少量数据+开源小模型,也可以拥有自己的专家模型。但问题是,这里面o1底座的重要性有多大,比如用deepseek的“o1”,差距会很大吗?尚不可知。以及数据本身的“浓度”可能比“数量”更重要。各行业的“know-how”一定是高度浓缩的,虽然可能也是基于海量数据、或者海量经验试错得到的,但只要有edge,比如差异化数据,即使数据规模不大,也可以建立优势。也就是各公司自己的“奖励函数”,一定是高度提炼的。
3.从专业走向泛化的可能?OpenAI自己强调在生物化学、安全、法律、医疗上效果显著。因为上述领域都有明确规则,或“奖励函数”。但这已经比o1刚出时候的“数学和代码”范围更广。核心问题在于,这个奖励函数的获取成本变低,一个基座模型不可能穷尽各领域奖励函数,但可以交给各行各业,各行业自己的"know-how”就是那个奖励函数。按道理,强化学习的核心是“策略最优”,比如自动驾驶、游戏、手机Agent等等很多行业,都适合“策略优化”的模型训练目标。
4. 大幅降低了应用门槛。过去的问题就是统一的基座大模型,依靠其“昂贵”的泛化性去实现各个领域的专业应用,成本高昂且专业化、精确度不够。RFT范式下,小模型+专业少量数据的模式,至少让应用的实现成本大幅降低。瓶颈可能还是找个那个各自领域的“奖励函数”。这里自然有人会质疑,这不又回到过去“垂类AI”的老路了吗?似乎1)实现成本还是低得多;2)reasoning能力是泛化的,领域数据是定制的。想象空间应该还是大于上个AI时代。
5. 对算力卡的要求门槛是否降低?毕竟这种方式更偏向于“fine-tune”微调,且基座模型尽可能小、数据集又很小,整个算力要求很低。可能对国产卡是好事。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ