返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

揭秘!OpenAI o1模型训练核心原理

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:29 |阅读模式 打印 上一主题 下一主题

OpenAI 首席科学家@hwchung27在MIT演讲中揭示 o1模型训练核心秘密:通过激励模型学习是培养 AGI 系统通用技能的最佳方式。

以下为详情:

Don’t teach. Incentivize.

Non-goal: share specific technical knowledge and experimental results

Goal: share how I think with AI being a running example

Closing

Compute cost is decreasing exponentially

AI researchers should harness this by designing scalable methods

Current generation of LLMs rely on next-token prediction, which can be thought of as weak incentive structure to learn general skills such as reasoning

More generally, we should incentivize models instead of directly teaching specific skills

Emergent abilities necessitate having the right perspective such as unlearning

结束语

计算成本正在呈指数级下降

人工智能研究人员应该通过设计可扩展的方法来利用这一点

当前一代的 LLM 依赖于下一个标记预测,这可以被认为是学习推理等一般技能的弱激励结构

更一般地说,我们应该激励模型,而不是直接教授特定技能

新兴能力需要有正确的观点,例如忘记

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ