链载Ai

标题: 轻松打造出各种AI专家 OpenAI 昨晚王炸更新 灵感竟来自字节论文 [打印本页]

作者: 链载Ai    时间: 昨天 11:56
标题: 轻松打造出各种AI专家 OpenAI 昨晚王炸更新 灵感竟来自字节论文


OpenAI 连续12天发布会,第二天依旧是短平快

也是短短20分钟结束,但比第一天略长

相比第一天的o1模型和Pro会员引发朋友圈、社交媒体、群聊的吐槽和大讨论

今天发布的东西可以说是无人问津,几乎群聊没人在聊

但其实今天发的东西对普通人来说可能几乎没用处,对开发者、企业、科研领域来说可谓是王炸更新

OpenAI 首席执行官山姆·奥特曼对此表示:

“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”

那么,这项技术究竟是什么,它带来了哪些变革,又如何改变我们的认知?

接下来,深入说说,昨晚到底更新了什么...

OpenAI昨晚发布了一种叫强化微调(Reinforcement Fine-Tuning, RFT)的技术。

先听听发布会中原话解释它是什么?

“再次强调,这不是传统的微调。

这是强化微调,它真正利用了强化学习算法,将我们的模型从高中学生水平提升到了专家博士水平。”

也就是说通过强化微调你可以轻松的现有的模型直接训练成特定领域的专家。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">什么意思呢?

就是不论是GPT4o模型还是o1模型,它在综合能力上都是很强没问题的,但是一旦你想要处理一些专业领域的问题,比如法律、医疗、金融、科研等专业领域的问题,它的水平可能无法满足这些领域的专业需求。

那么就需要通过专业的训练来让它能适应特定领域的需要。

但是其实呢GPT已经从大量通用数据中学习了广泛的知识,涵盖多个领域如果你再去重新训练其实是浪费。

专业需求与模型的限制
所以其实只我们需要一些简单的训练来让模型知道它具体要干什么?这个领域的要求什么?我应该怎么做?直接调用已经训练好的知识和能力来解决专业问题!

通过强化微调优化模型

强化微调的核心概念和优势

核心思路

强化微调技术原理

传统监督微调与强化微调的区别
强化学习具体流程
  1. 输入问题和相关数据:





欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5