周末竟然没人讨论：强化微调的意义被低估

显示全部楼层

周六凌晨OpenAI发布了强化微调（Reinforcement Fine-Tuning），大白话说就是：让用户基于自己领域的少量数据（几十条），就能塑造出一个强大的专家模型。整个过程非常简洁，自定义数据集、配置超参数，结束。不需要过去fine-tune微调那样的数据标注，而是反馈奖励。看到了人人快速塑造自己领域模型的可能。

初步结论：

1. 还记得o1-preview时候Noam Brown留了个悬念，让大家思考为什么o1-mini有时候表现比o1更好现在看很可能是做了强化微调。说明什么？模型参数真的不需要很大了...这不是蒸馏的问题了，是超大参数的“知识模型”过于冗余，专业领域的推理能力不需要那么多参数。

2.数据壁垒降低，中小企业的机会可能来了。之前的思考模式是：大模型时代的数据壁垒越来越高，数据成为差异化核心要素。但从RFT的使用方式看，小公司基于自己的少量数据+开源小模型，也可以拥有自己的专家模型。但问题是，这里面o1底座的重要性有多大，比如用deepseek的“o1”，差距会很大吗？尚不可知。以及数据本身的“浓度”可能比“数量”更重要。各行业的“know-how”一定是高度浓缩的，虽然可能也是基于海量数据、或者海量经验试错得到的，但只要有edge，比如差异化数据，即使数据规模不大，也可以建立优势。也就是各公司自己的“奖励函数”，一定是高度提炼的。

3.从专业走向泛化的可能？OpenAI自己强调在生物化学、安全、法律、医疗上效果显著。因为上述领域都有明确规则，或“奖励函数”。但这已经比o1刚出时候的“数学和代码”范围更广。核心问题在于，这个奖励函数的获取成本变低，一个基座模型不可能穷尽各领域奖励函数，但可以交给各行各业，各行业自己的"know-how”就是那个奖励函数。按道理，强化学习的核心是“策略最优”，比如自动驾驶、游戏、手机Agent等等很多行业，都适合“策略优化”的模型训练目标。

4. 大幅降低了应用门槛。过去的问题就是统一的基座大模型，依靠其“昂贵”的泛化性去实现各个领域的专业应用，成本高昂且专业化、精确度不够。RFT范式下，小模型+专业少量数据的模式，至少让应用的实现成本大幅降低。瓶颈可能还是找个那个各自领域的“奖励函数”。这里自然有人会质疑，这不又回到过去“垂类AI”的老路了吗？似乎1）实现成本还是低得多；2）reasoning能力是泛化的，领域数据是定制的。想象空间应该还是大于上个AI时代。

5. 对算力卡的要求门槛是否降低？毕竟这种方式更偏向于“fine-tune”微调，且基座模型尽可能小、数据集又很小，整个算力要求很低。可能对国产卡是好事。