返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

中国研究者破解OpenAI 01和03的“思考”秘密,AGI时代即将到来?

[复制链接]
链载Ai 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 1em;color: rgb(63, 63, 63);">从“思考模型”到AGI,OpenAI和Google的“测试时间计算”如何让AI达到博士级水平?


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">近年来,人工智能领域迎来了前所未有的突破,尤其是OpenAI的01和03模型,以及Google的Gemini模型,它们不仅在数学、科学推理等复杂任务上表现出色,甚至达到了博士级别的水平。这些模型的成功,很大程度上归功于“测试时间计算”(Test-Time Compute),也就是我们常说的“思考”能力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">然而,OpenAI和Google一直是这一领域的佼佼者,直到最近,中国的研究者们终于破解了这一“思考”模型的秘密。复旦大学和上海人工智能实验室的研究者们发布了一篇论文,详细解释了如何复现OpenAI 01模型的“思考”能力,并提出了四个关键要素:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">策略初始化(Policy Initialization)、奖励设计(Reward Design)、搜索(Search)和学习(Learning)

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">今天,我们将深入探讨这篇论文,揭示这些“思考模型”背后的秘密,以及它们如何推动人工智能向通用人工智能(AGI)迈进。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">01和03模型的“思考”能力:测试时间计算的革命

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">OpenAI的01模型代表了人工智能领域的一个重要里程碑。它能够生成非常长的推理过程,执行类似人类的推理行为,如澄清和分解问题、反思和纠正错误、在遇到失败模式时探索新的解决方案。01模型的推理能力远超之前的语言模型,达到了博士级别的水平。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">那么,什么是“测试时间计算”?简单来说,就是当用户提交一个提示(prompt)时,模型不会立即给出答案,而是花费更多的时间和计算资源进行“思考”。这种“思考”过程使得模型能够在复杂的任务中表现出色,尤其是在数学、科学推理和逻辑问题上。

OpenAI的博客和系统卡片显示,01模型的性能随着强化学习和推理计算的增加而持续提升。这意味着,01模型可能推动人工智能的两个范式转变:从自监督学习转向强化学习,以及从仅扩展训练计算到同时扩展训练和推理计算。

为什么这如此重要?因为传统的AI模型主要依赖于训练数据的扩展,而随着公开数据的枯竭,训练数据的获取变得越来越困难。然而,测试时间计算的扩展几乎是无限制的,因为它只需要更多的计算资源。这意味着,未来的AI模型可以通过“思考”来不断提升性能,而不需要依赖更多的训练数据。


复现01模型的四大关键要素

根据复旦大学和上海人工智能实验室的研究,复现01模型的“思考”能力需要四个关键要素:

1. 策略初始化(Policy Initialization)

策略初始化可以理解为模型在接收到提示之前的所有准备工作。它包括预训练(Pre-training)指令微调(Instruction Fine-tuning)人类推理行为(Human-like Reasoning Behaviors)

  • 预训练:通过大规模的网络数据训练模型,使其具备基本的语言理解和生成能力。
  • 指令微调:通过问答对数据对模型进行微调,使其能够根据指令生成符合人类期望的响应。
  • 人类推理行为:模型需要具备类似人类的推理能力,如问题分析、任务分解、自我评估和自我纠正等。

2. 奖励设计(Reward Design)

奖励设计是告诉模型它的行为是否正确的方式。在强化学习中,奖励信号是模型学习的核心驱动力。对于语言模型来说,奖励设计尤为重要,因为语言任务的奖励信号往往不像游戏那样明确。

  • 结果奖励(Outcome Reward):根据最终结果是否正确来给予奖励。
  • 过程奖励(Process Reward):根据每个步骤的正确性来给予奖励。过程奖励能够更细致地指导模型的学习,尤其是在复杂的推理任务中。

3. 搜索(Search)

搜索是模型在生成答案时进行“思考”的核心机制。它既可以在训练时进行,也可以在推理时进行。01模型的“思考”能力主要体现在推理时的搜索过程。

  • 训练时搜索:通过生成多个候选答案,选择最优的答案作为训练数据。
  • 推理时搜索:在生成答案时,模型会生成多个候选答案,并通过自我评估或外部反馈选择最优的答案。

4. 学习(Learning)

学习主要是指强化学习,即模型通过与环境的交互来学习,而不是依赖人类的反馈。强化学习的优势在于,它可以通过试错来发现人类可能从未想到的策略,从而实现“超人”级别的表现。


从“思考模型”到AGI:未来的方向

随着01和03模型的成功,人工智能正在向通用人工智能(AGI)迈进。根据OpenAI的五阶段路线图,01模型已经达到了第二阶段的“推理者”(Reasoner),而未来的目标是第三阶段的“代理”(Agent),即能够执行实际任务的AI系统。

未来的研究方向包括:

  1. 1.如何将01模型适应更广泛的领域:当前的模型在数学和科学推理上表现出色,但在其他领域的表现还有待提升。
  2. 2.如何引入多模态能力:未来的AI模型不仅需要处理文本,还需要处理图像、视频等多模态数据。
  3. 3.如何在世界模型中进行学习和搜索:这将使AI能够在现实世界中执行任务,而不仅仅是处理虚拟环境中的问题。

结语:AGI时代的曙光

这篇论文为我们揭示了OpenAI 01和03模型的“思考”秘密,也为我们展示了未来AI发展的方向。随着测试时间计算的扩展和强化学习的应用,AI模型将能够在更复杂的任务中表现出色,甚至超越人类的能力。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ