链载Ai

标题: OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能 [打印本页]

作者: 链载Ai 时间: 昨天 21:23
标题: OpenAI路线遭质疑！Meta研究员：根本无法构建超级智能

超级智能（Superintelligence）是处于AGI之上、甚至通用能力超过人类的更高维AI发展方向。

扎克伯格不惜以一亿美金年薪挖角OpenAI等竞争对手的动作背后，便暴露了Meta等头部玩家追求“超级智能”的巨大野心。

那么，超级智能将如何实现？现有大语言模型（LLM）的研究路径是否正确？Scaling Laws能够在这一过程中继续奏效？

早在2023年，OpenAI首席执行官Sam Altman便表示，构建AGI是一个科学问题，而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径。

然而，在Meta AI研究员Jack Morris看来，Altman提到超级智能的“工程问题”，在于“构建大量适用于不同任务的RL环境，并训练LLM同时处理所有这些任务”。他认为，这一由OpenAI等公司当前大力推进的路径——基于LLM的RL——根本无法构建超级智能。

“我谦卑的预测是：LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练，这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。”

Morris在一篇题为“Superintelligence, from First Principles”的博客中，探讨了构建超级智能的3种可能方式：完全由监督学习（SL）、来自人类验证者的强化学习（RL）、来自自动验证器的RL。

此外，他还认为，将非文本数据整合到模型中并不能带来模型整体性能的提升，“由实际人类撰写的文本携带某种内在价值，而我们周围世界纯粹的感官输入永远无法具备这种价值。”

学术头条在不改变原文大意的情况下，对整体内容做了精编，如下：

原文链接：

https://blog.jxmo.io/p/superintelligence-from-first-principles

许多人都在讨论如何利用当前技术实现AGI（通用人工智能）或ASI（超级人工智能）。Meta最近宣布，他们正在建立一个秘密的“超级智能”实验室，投入了数十亿美元的资金。OpenAI、Anthropic和Google DeepMind都以不同方式表达了构建超级智能机器的目标。

Sam Altman特别表示，超级智能仅仅是一个工程问题：

这暗示着OpenAI的研究人员知道如何构建超级智能，只需要投入时间和精力来建立所需的系统就行了。

作为一名AI研究员，我并不清楚如何构建超级智能——我甚至不确定这是否可能。因此，在这篇文章中，我希望深入探讨一些细节，并推测是否有人能够从第一性原理出发来尝试构建超级智能。

我们假设实现这一技术的基本构建模块已经确定：即采用神经网络作为基础架构，并通过反向传播算法以及某种形式的机器学习方法对其进行训练。

我认为架构（神经网络的结构）并不是最关键的因素。因此，我们将略过有关架构的细节，并做出一个大胆的假设：超级智能将采用Transformers构建，这是目前在大型数据集上训练这类系统的最流行架构。

那么，我们已经知道很多：超级智能将是一个Transformers神经网络，它将通过某种机器学习目标函数和基于梯度的反向传播进行训练。这里仍然有两个主要的开放性问题。我们使用哪种学习算法，以及使用什么数据？

让我们从数据开始。

数据：必须是文本

导致ChatGPT诞生的许多重大突破，很大程度上源于对互联网上庞大的人类知识宝库的学习。尽管它的大部分复杂性都被现代工程巧妙地隐藏了起来，但让我们花点时间试图弄清楚这一切。

目前最好的系统都依赖于从互联网的文本数据中学习。截至本文撰写时（2025年6月），我认为将非文本数据整合到模型中并未带来整体性能的提升。这包括图像、视频、音频以及机器人技术的超感官数据——我们尚不清楚如何利用这些模态来提升ChatGPT的智能水平。

为什么会这样呢？这可能只是一个科学或工程挑战，我们可能没有采用正确的方法；但也有可能文本本身具有某种特殊性。毕竟，互联网上的每一段文本（在LLM出现之前）都是人类思维过程的反映。从某种意义上说，人类撰写的文本经过预处理，具有非常高的信息含量。

相比之下，图像只是我们周围世界未经人类干预的原始视角。确实有可能，由实际人类撰写的文本携带某种内在价值，而我们周围世界纯粹的感官输入永远无法具备这种价值。

因此，在有人证明情况相反之前，让我们假设只有文本数据才是重要的。

那么，我们有多少文本数据呢？

下一个问题是，这个数据集可能有多大。

许多人已经讨论过，如果文本数据用完了，我们应该如何应对。这种情况被称为“数据墙”或“token危机”，人们已经探讨了如果我们真的用完了数据该怎么办，以及如何扩展我们的模型。

而这种情况似乎真的正在发生。许多大型人工智能实验室的工程师已经花费了无数小时，从网络的各个角落刮取每一个有用的文本片段，甚至转录了数百万小时的YouTube视频，并购买了大量新闻故事来进行训练。

幸运的是，这里可能还有另一个数据源可用（可验证的环境！），但我们稍后再讨论这个。

学习算法

在上文中，我们发现了一个重要的原则：通向超级智能的最佳路径在于文本数据。换句话说，AGI很可能就是LLM，或根本不存在。其他一些有前景的领域包括从视频和机器人技术中学习，但这些领域似乎都远未达到在2030年前产生独立智能系统的水平。它们也需要大量数据；从文本中学习自然非常高效。

现在我们必须面对最重要的问题。超级智能的学习算法是什么？

在机器学习领域，从大型数据集中学习的基本方法（经过验证）有两种。一种是SL，即训练模型以增加某些示例数据的概率。另一种是RL，涉及从模型中生成数据，并因其采取“良好”行动（由用户定义的“良好”标准）而给予奖励。

既然我们了解了这一分类，就清楚任何潜在的超级智能系统都必须通过SL或RL（或两者结合）进行训练。

图｜杨立昆（Yann LeCun）曾表示他知道通向智能的秘诀。事实上，智能就像一块蛋糕，而RL只是上面的一小颗樱桃。

让我们分别探讨这两种方案。

1.假设1：超级智能来自SL

还记得2023年吗？那正是人们开始对scaling laws感到兴奋的时候；GPT-4发布后，人们担心如果模型继续规模化，可能会变得危险。

图｜大约在2023年，很多人开始担心，LLM通过简单的监督学习扩展后，很快会演化为超级智能。

有一段时间，人们普遍认为大量的SL，特别是以“next-token prediction”的形式，可能导致超级智能AI的出现。值得注意的是，Ilya Sutskeve曾发表过一场演讲，指出next-token prediction本质上是在学习压缩“（信息）宇宙”，因为要做好这一点需要模拟所有可能的程序（或者类似的东西）。

我认为他的论点大致如下：

准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模
你对一个人的建模越准确，就越能接近这个人的智能
由于互联网包含许多人撰写的文本，因此在大型文本预训练数据集上进行训练，就需要准确建模许多人的智能
准确建模许多人的智能就是超级智能

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">（1）“ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">氛围ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">”论：我们能否通过模拟人类实现超级智能？

我个人认为，这种逻辑存在一些缺陷，首先，我们似乎已经创建了在next-token prediction方面远超人类水平的系统，但这些系统仍无法展现人类级别的通用智能。某种程度上，我们构建的系统虽然学会了我们要求它们学习的内容（next-token prediction），却仍无法完成我们期望它们完成的任务（如不凭空杜撰地回答问题、完美遵循指令等）。

这可能仅仅是机器学习的失败。我们一直在训练一个模型，以预测每种情况下的人类平均结果。这种学习目标鼓励模型避免给任何一种可能的结果赋予过低的概率。这种范式常常导致所谓的“模式崩溃”（mode collapse），即模型在预测平均结果方面非常出色，却未能学习分布的尾部。

这些问题可能在规模扩展后消失。拥有数十亿参数的模型，如Llama，会产生幻觉，但仅有10^9个参数。当我们训练拥有10^19个参数的模型时会发生什么？或许这足以让单个LLM独立给全球80亿人类建模，并为每个人提供独立的数据驱动预测。

（2）Infra论：我们无法扩展模型和数据

但事实证明，这已无关紧要，因为我们可能永远无法扩展到10^19个参数（的规模）。这一假设基本上源于2022年左右的深度学习学派，他们受语言模型scaling laws的巨大成功驱动，认为持续扩展模型和数据规模将实现完美智能。

现在是2025年。这一理论论点仍未被挑战，scaling laws也一直有效。但事实证明，当规模超过一定阈值后，扩展模型变得非常困难（而早在2022年，我们已经非常接近能够有效处理的极限）。企业已经远远超出了我们用单台机器能够做到的范围——所有最新模型都是在由数百台机器组成的巨型网络上训练的。

继续将模型规模扩展到万亿级参数，正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力，以至于无法集中部署于单一地点；企业正在研究如何将模型训练分布到多个遥远的数据中心，甚至收购、修复废弃核电站来训练下一代更大规模的AI模型。我们正处于一个疯狂的时代。

除了模型规模，我们可能还面临数据不足的问题。没有人知道每个模型在训练过程中使用了多少互联网数据，但可以肯定的是，数量相当庞大。过去几年，大型人工智能实验室投入了巨大的工程努力，从互联网文本数据中榨取最后一点价值：例如，OpenAI似乎已经转录了整个YouTube，而像Reddit这样的高质量信息网站也被反复抓取。

将模型规模扩展到超过1000亿参数似乎很困难，同样，将数据规模扩大到20T tokens以上也很困难。这些因素似乎表明，在未来三到四年内，SL的规模很难再扩展10倍以上——因此，对超级智能的探索可能不得不从其他地方寻找突破口。

2.假设2：通过结合SL与RL实现超级智能

也许你认同上述观点之一：要么我们在很长一段时间内都无法将预训练规模再提升几个数量级，要么即使我们做到了，在预测人类token方面表现得非常出色，也无法构建比人类更聪明的系统。

还有另一种方法。RL领域提供了一整套方法，可通过反馈而非仅依赖演示进行学习。

为什么我们需要SL？

RL是非常难的。你可能会好奇，为什么我们不能全程使用RL。从实际角度来看，RL有许多缺点。简而言之，SL比RL稳定且高效得多。一个易于理解的原因是，由于RL通过让模型生成动作并对其进行评分来工作，一个随机初始化的模型基本上是糟糕的，所有动作都毫无用处，它必须偶然做好一些事才能获得任何形式的奖励。这就是所谓的冷启动问题，而这只是RL众多问题中的一个。基于人类数据的SL被证明是解决冷启动问题的有效方法。

让我们重新梳理RL的范式：模型尝试各种操作，然后我们告知模型这些操作的表现好坏。这可通过两种方式实现：要么由人类评估者告知模型表现优劣（这大致是典型RLHF的工作原理），要么由自动化系统完成此任务。

3.假设2A：来自人类验证者的RL

在此第一种范式下，我们为模型提供基于人类的奖励。我们希望模型具备超级智能，因此希望对其生成更接近超级智能（由人类评判）的文本进行奖励。

实际上，这类数据的收集成本极高。典型的RLHF设置中，需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的，因为它们使我们能够提供远超实际人类反馈量的反馈。换言之，它们是计算上的辅助工具。我们将把奖励模型视为工程细节，暂且忽略它们。

因此，设想这样一个世界：我们拥有无限数量的人类来为LLM标注数据，并提供任意奖励，其中高奖励意味着模型的输出更接近超级智能。

图｜“一千只猴子在一千台打字机前工作。很快，它们将写出人类历史上最伟大的小说。”——伯恩斯先生，《辛普森一家》

忽略所有程序复杂性。假设这种方法能够实现大规模应用（尽管目前可能无法实现，但未来或许可行）。这会有效吗？一个仅通过人类奖励信号学习的机器，能否沿着智能阶梯不断进步，并最终超越人类？

换个方式问：我们能否“验证”超级智能的存在，即便我们自己不能生成它？记住，人类从定义上来说不是超级智能。但当我们看到超级智能时，能否识别出它？我们能否以足够可靠的方式识别，从而为LLM提供有用的梯度信号，使其可以收集大量此类反馈自我提升至超级智能？

有人会指出“生成自然会比验证更难”。你看一部好电影时就知道它好，但这并不意味着你可以自己去制作一部。这种二分法在机器学习中经常出现。区分猫的照片和狗的照片在计算上要比生成完整的猫容易得多。

同样地，如果人类能够验证超级智能，那么可能可以通过RLHF来训练一个超级智能模型。以具体例子来说，你可以让一个LLM撰写大量小说，根据人类对“好小说”的定义对其进行奖励，然后多次重复这个过程，直到你得到一个能够撰写小说的超级智能机器。

你是否注意到这种逻辑中存在任何问题？

4.假设2B：来自自动验证器的RL

最近，人们对使用类似方法训练更好的语言模型感到兴奋。

当我们让计算机评估RL算法的阶段性性能时，可以使用模型或自动验证器。对于自动验证器，可以参考国际象棋或编程场景。我们可以编写规则来检查计算机是否赢得了国际象棋比赛，并在将死对手时给予奖励。在编程中，我们可以运行单元测试，对编写符合某些规格的代码的计算机给予奖励。

使用验证器会更加实用——它将使我们能够完全去除人类的参与（尽管人类曾用于编写整个互联网）。使用验证器实现超级智能的方案大致如下：

使用SL在大量互联网文本上预训练一个LLM；
将其接入一个能够为优质LLM输出提供奖励的验证系统；
运行很长时间；
实现超级智能。

这个思路靠谱吗？它真的可行吗？

众所周知，DeepMind的AlphaGo通过RL与SL的结合实现了“围棋霸主地位”（即击败所有人类选手，甚至那些训练了数十年的高手）。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。

图｜2016年，AlphaGo以四胜一负的成绩击败了当时的人类围棋冠军李世石。最初的AlphaGo是通过SL进行训练的。接下来的AlphaGo版本通过RL进行学习：通过自我对战数百万局进行学习。

需要注意的是，围棋具有许多现实世界任务所不具备的重要特性，围棋具有固有的可验证性。我们可以将围棋对局输入到基于规则的计算机程序中，并获得一个信号，指示我是否获胜。从长远来看，你可以根据某一步棋对游戏以胜利结束的概率的影响，判断这一步棋是否“好”。这基本上就是RL的工作原理。

借助这种可验证性，AlphaGo实现了AI实验室长期以来追求的一个重要目标：AlphaGo在思考时间更长时表现更佳。语言模型默认无法做到这一点。

但这正是OpenAI去年秋季宣布的突破性成果。他们利用可验证奖励强化学习（RLVR）训练了o1模型，该模型与AlphaGo一样，能够通过更长时间的思考产生更优的输出：

图｜在o1博客文章中，OpenAI介绍了一系列“推理模型”，这些模型通过RLVR进行学习

观察上方的美丽图表（注意对数x轴！），我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题：这是在AIME数据集上的结果——AIME是一组极为困难、答案为整数的数学题。换言之，这不是开放式任务，而是可验证的任务，因为我们可以检查LLM是否生成正确答案，并据此奖励模型。

事实证明，当前的LLM在预训练后能够很好地处理任意任务，它们可以对AIME问题做出合理的猜测，而我们可以利用RL来训练它们，使其随着时间的推移做出越来越好的猜测。（最酷的部分，我们在此不做展开，是它们在这一过程中会生成越来越多的“思考token”，从而为我们提供如上文o1博客文章中所示的测试时计算图。）

5.RLVR是通向超级智能的路径？

显然，OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋，并认为这可能为他们带来超级智能。我认为，这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境，并训练LLM同时处理所有这些任务。

让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程（可以通过运行代码来验证其正确性）以及数学（不是证明，而是有数值解的问题）。如果我们能够收集世界上所有可验证的事物，并同时对它们进行训练（或分别训练，然后进行模型合并）——这真的会产生通用超级智能吗？

这里存在几个逻辑跳跃。最重要的是，我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票？或者，在可验证环境中训练模型提升编程能力，是否能使其成为更优秀的软件工程师？

假设这种情况确实成立，且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛，争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能，有多家公司以这种方式推出“超级智能LLM”。

但这种结果在我看来似乎不太可能。我猜如果RL确实能够极好地迁移到其他领域，那我们现在应该已经知道了。我谦卑的预测是：LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练，这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。

欢迎光临链载Ai (https://www.lianzai.com/)