中国研究者破解OpenAI 01和03的“思考”秘密，AGI时代即将到来？

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 1em;color: rgb(63, 63, 63);">从“思考模型”到AGI，OpenAI和Google的“测试时间计算”如何让AI达到博士级水平？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">近年来，人工智能领域迎来了前所未有的突破，尤其是OpenAI的01和03模型，以及Google的Gemini模型，它们不仅在数学、科学推理等复杂任务上表现出色，甚至达到了博士级别的水平。这些模型的成功，很大程度上归功于“测试时间计算”（Test-Time Compute），也就是我们常说的“思考”能力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">然而，OpenAI和Google一直是这一领域的佼佼者，直到最近，中国的研究者们终于破解了这一“思考”模型的秘密。复旦大学和上海人工智能实验室的研究者们发布了一篇论文，详细解释了如何复现OpenAI 01模型的“思考”能力，并提出了四个关键要素：ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">策略初始化（Policy Initialization）、奖励设计（Reward Design）、搜索（Search）和学习（Learning）。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">今天，我们将深入探讨这篇论文，揭示这些“思考模型”背后的秘密，以及它们如何推动人工智能向通用人工智能（AGI）迈进。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">01和03模型的“思考”能力：测试时间计算的革命

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">OpenAI的01模型代表了人工智能领域的一个重要里程碑。它能够生成非常长的推理过程，执行类似人类的推理行为，如澄清和分解问题、反思和纠正错误、在遇到失败模式时探索新的解决方案。01模型的推理能力远超之前的语言模型，达到了博士级别的水平。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">那么，什么是“测试时间计算”？简单来说，就是当用户提交一个提示（prompt）时，模型不会立即给出答案，而是花费更多的时间和计算资源进行“思考”。这种“思考”过程使得模型能够在复杂的任务中表现出色，尤其是在数学、科学推理和逻辑问题上。

OpenAI的博客和系统卡片显示，01模型的性能随着强化学习和推理计算的增加而持续提升。这意味着，01模型可能推动人工智能的两个范式转变：从自监督学习转向强化学习，以及从仅扩展训练计算到同时扩展训练和推理计算。

为什么这如此重要？因为传统的AI模型主要依赖于训练数据的扩展，而随着公开数据的枯竭，训练数据的获取变得越来越困难。然而，测试时间计算的扩展几乎是无限制的，因为它只需要更多的计算资源。这意味着，未来的AI模型可以通过“思考”来不断提升性能，而不需要依赖更多的训练数据。

复现01模型的四大关键要素

根据复旦大学和上海人工智能实验室的研究，复现01模型的“思考”能力需要四个关键要素：

1. 策略初始化（Policy Initialization）

策略初始化可以理解为模型在接收到提示之前的所有准备工作。它包括预训练（Pre-training）、指令微调（Instruction Fine-tuning）和人类推理行为（Human-like Reasoning Behaviors）。

•预训练：通过大规模的网络数据训练模型，使其具备基本的语言理解和生成能力。
•指令微调：通过问答对数据对模型进行微调，使其能够根据指令生成符合人类期望的响应。
•人类推理行为：模型需要具备类似人类的推理能力，如问题分析、任务分解、自我评估和自我纠正等。

2. 奖励设计（Reward Design）

奖励设计是告诉模型它的行为是否正确的方式。在强化学习中，奖励信号是模型学习的核心驱动力。对于语言模型来说，奖励设计尤为重要，因为语言任务的奖励信号往往不像游戏那样明确。

•结果奖励（Outcome Reward）：根据最终结果是否正确来给予奖励。
•过程奖励（Process Reward）：根据每个步骤的正确性来给予奖励。过程奖励能够更细致地指导模型的学习，尤其是在复杂的推理任务中。

3. 搜索（Search）

搜索是模型在生成答案时进行“思考”的核心机制。它既可以在训练时进行，也可以在推理时进行。01模型的“思考”能力主要体现在推理时的搜索过程。

•训练时搜索：通过生成多个候选答案，选择最优的答案作为训练数据。
•推理时搜索：在生成答案时，模型会生成多个候选答案，并通过自我评估或外部反馈选择最优的答案。

4. 学习（Learning）

学习主要是指强化学习，即模型通过与环境的交互来学习，而不是依赖人类的反馈。强化学习的优势在于，它可以通过试错来发现人类可能从未想到的策略，从而实现“超人”级别的表现。

从“思考模型”到AGI：未来的方向

随着01和03模型的成功，人工智能正在向通用人工智能（AGI）迈进。根据OpenAI的五阶段路线图，01模型已经达到了第二阶段的“推理者”（Reasoner），而未来的目标是第三阶段的“代理”（Agent），即能够执行实际任务的AI系统。

未来的研究方向包括：

1.如何将01模型适应更广泛的领域：当前的模型在数学和科学推理上表现出色，但在其他领域的表现还有待提升。
2.如何引入多模态能力：未来的AI模型不仅需要处理文本，还需要处理图像、视频等多模态数据。
3.如何在世界模型中进行学习和搜索：这将使AI能够在现实世界中执行任务，而不仅仅是处理虚拟环境中的问题。

结语：AGI时代的曙光

这篇论文为我们揭示了OpenAI 01和03模型的“思考”秘密，也为我们展示了未来AI发展的方向。随着测试时间计算的扩展和强化学习的应用，AI模型将能够在更复杂的任务中表现出色，甚至超越人类的能力。