链载Ai

标题: OpenAI强化微调终于上线了:几十个样本就可轻松打造AI专家 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: OpenAI强化微调终于上线了:几十个样本就可轻松打造AI专家


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">分享一个好消息!还记得去年12月就提过的强化微调(Reinforcement Fine-Tuning, RFT)吗?现在,它正式登陆ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">OpenAI o4-mini模型了!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">简单说,RFT 就是用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">思维链推理ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">任务专属的评分机制来提升模型在特定复杂领域的表现,可以将AI模型从高中学生水平轻松提升到了专家博士水平。 通过强化微调,你可以轻松将模型的某一个领域的专业能力迅速提升,打造出各种AI专家

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 0.1em auto 0.5em;border-radius: 4px;" title="null"/>

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 0.1em auto 0.5em;border-radius: 4px;" title="null"/>

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">另外,GPT-4.1 nano现在也开放微调了!这意味着你可以把OpenAI最快、最便宜的模型,针对你的具体场景进行“特训”,性价比拉满!

目前,RFT已向经过验证的组织开放。OpenAI还给出了个福利:分享你的数据集,不仅能帮助改进未来的OpenAI模型,还能获得50%的折扣

官方已经准备了强化微调指南,第一时间给大家划个重点


强化微调RFT:到底能干啥?

RFT的核心目标是提升模型在特定、答案可验证任务上的性能

啥时候最该用RFT?

特别适合那些需要模型做出正确且可验证决策的“智能体式”工作流。RFT通过明确的评分标准,以及基于代码或大语言模型(LLM)的“裁判”(Grader)来衡量任务的成功度、事实准确性或政策合规性

OpenAI的早期用户主要集中在三个场景:

  1. 1.指令变代码:把开放式指令转换成结构化的代码、配置或模板,并且这些产出必须通过确定性的测试。
  2. 2.杂乱文本提炼精华:从非结构化文本中提取可验证的事实和摘要,并以JSON或其他结构化模式输出。
  3. 3.复杂规则精准应用:当信息细微、量大、层级复杂或事关重大时,进行精细的标签或策略决策。

实战案例秀肌肉 ?

下面这些公司已经用RFT搞出了名堂:

1. 指令变代码

模型需要理解隐藏的领域限制,生成结构化输出,如代码、查询语句或基础设施模板。输出必须满足多重正确性条件,成功与否通常是确定性评分。

?ChipStack:为半导体设计“智能布线”


2. 杂乱文本提炼精华

这类任务通常涉及细微差别,需要明确的分类指南和领域专家的共识。评分信号的一致性对RFT效果至关重要。

? Ambience Healthcare:精准分配ICD-10医疗编码

  • 公司:Ambience,AI平台,为临床医生减轻行政负担,确保文档准确合规。
  • 痛点:ICD-10编码(约7万个代码)是医学中最复杂的行政任务之一,错误可能导致巨额罚款。
  • 目标:训练一个能听取就诊音频、结合EHR信息、推荐ICD-10编码且准确率超过专家临床医生的推理系统。
  • 成果:在包含数百次就诊的黄金测试集上,RFT将模型性能从落后人类专家13个百分点提升到领先12个百分点,大致消除了训练有素医生所犯编码错误的四分之一
    • • o3-mini (基础): 0.39
    • • 医生基线: 0.45
    • • RFT调优的 o3-mini: 0.57

3. 复杂规则精准应用

将非结构化输入中的可验证事实或实体提取到定义清晰的模式中(如JSON、代码、引文等)。精确、连续的评分方法(如F1、模糊匹配、数值准确性)是关键。

? Accordance:税务分析的“专家级”推理


评估 (Evals) 是基石

OpenAI强烈建议:在实施RFT之前,务必为你的任务创建并运行评估 (eval)
如果你的模型在评估中得分是最低或最高,RFT就没啥用了。RFT需要模型在不同答案质量间有区分度才能学习。如果评估得分在最低和最高分之间,那就有戏。

一个有效的评估能揭示出人类专家普遍认同、但当前模型难以解决的痛点——这正是RFT大显身手的好机会。


如何从RFT中获得更好结果?

想让微调模型效果更好,主要从两方面下功夫:明确任务定义强化评分方案

重新定义或澄清你的任务

好任务能让模型有公平的学习机会,也让你能量化改进。

强化你的评分器

清晰、鲁棒的评分方案对RFT至关重要。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5