返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RFT目前(在应用层)仍然是被低估的

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:34 |阅读模式 打印 上一主题 下一主题

一篇短文,刷新一下观点的有效期,没有新的观点。

我在2025年Q1有一系列文章讨论我当时在RFT上的实践,和我对于RFT价值的看法。

之后由于我跑去做别的了,所以没有再提RFT这边。但这并不代表说我不看好RFT了。

目前整个应用层对于RFT的实践仍然似乎成功率不高,不过这更多是由于其infra要求更高,以及试用问题选择需要的认知更多,需要调节的超参数更多了。门比SFT窄得多。

但作为目前少有的几大方案,RFT仍然是我们无法无视的,特别是对于一些比较大的组织,(这里的比较大是指单个BU内,单一细分岗位有100人以上的规模)。不过确实对于这种规模组织来说,如何获得第一个成功案例是比较难的,但他们也有钱可以去买一个教学案例。

我目测RFT被低估这个判断的有效期还能持续1年。

一些其他观察

从LLM模型的用户角度观察,目前海外前沿模型厂对于RL post-training的调教已经进入了第二阶段,优化了reasoning token数。有安全报告说明GPT-5模型的思考过程已经开始出现非人话的情况,这都是(暴力)压缩reasoning token的副作用。


Agent构建平台" data-itemshowtype="0" linktype="text" data-linktype="2">RFTaaS有望成为第一种通用Agent构建平台

GRPO 实验经验笔记(1)


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ