超级智能(Superintelligence)是处于AGI之上、甚至通用能力超过人类的更高维AI发展方向。
扎克伯格不惜以一亿美金年薪挖角OpenAI等竞争对手的动作背后,便暴露了Meta等头部玩家追求“超级智能”的巨大野心。
那么,超级智能将如何实现?现有大语言模型(LLM)的研究路径是否正确?Scaling Laws能够在这一过程中继续奏效?
早在2023年,OpenAI首席执行官Sam Altman便表示,构建AGI是一个科学问题,而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径。
然而,在Meta AI研究员Jack Morris看来,Altman提到超级智能的“工程问题”,在于“构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务”。他认为,这一由OpenAI等公司当前大力推进的路径——基于LLM的RL——根本无法构建超级智能。
“我谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。”
Morris在一篇题为“Superintelligence, from First Principles”的博客中,探讨了构建超级智能的3种可能方式:完全由监督学习(SL)、来自人类验证者的强化学习(RL)、来自自动验证器的RL。
此外,他还认为,将非文本数据整合到模型中并不能带来模型整体性能的提升,“由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。”
学术头条在不改变原文大意的情况下,对整体内容做了精编,如下:
原文链接:
https://blog.jxmo.io/p/superintelligence-from-first-principles
许多人都在讨论如何利用当前技术实现AGI(通用人工智能)或ASI(超级人工智能)。Meta最近宣布,他们正在建立一个秘密的“超级智能”实验室,投入了数十亿美元的资金。OpenAI、Anthropic和Google DeepMind都以不同方式表达了构建超级智能机器的目标。
Sam Altman特别表示,超级智能仅仅是一个工程问题:
这暗示着OpenAI的研究人员知道如何构建超级智能,只需要投入时间和精力来建立所需的系统就行了。
作为一名AI研究员,我并不清楚如何构建超级智能——我甚至不确定这是否可能。因此,在这篇文章中,我希望深入探讨一些细节,并推测是否有人能够从第一性原理出发来尝试构建超级智能。
我们假设实现这一技术的基本构建模块已经确定:即采用神经网络作为基础架构,并通过反向传播算法以及某种形式的机器学习方法对其进行训练。
我认为架构(神经网络的结构)并不是最关键的因素。因此,我们将略过有关架构的细节,并做出一个大胆的假设:超级智能将采用Transformers构建,这是目前在大型数据集上训练这类系统的最流行架构。
那么,我们已经知道很多:超级智能将是一个Transformers神经网络,它将通过某种机器学习目标函数和基于梯度的反向传播进行训练。这里仍然有两个主要的开放性问题。我们使用哪种学习算法,以及使用什么数据?
让我们从数据开始。
导致ChatGPT诞生的许多重大突破,很大程度上源于对互联网上庞大的人类知识宝库的学习。尽管它的大部分复杂性都被现代工程巧妙地隐藏了起来,但让我们花点时间试图弄清楚这一切。
目前最好的系统都依赖于从互联网的文本数据中学习。截至本文撰写时(2025年6月),我认为将非文本数据整合到模型中并未带来整体性能的提升。这包括图像、视频、音频以及机器人技术的超感官数据——我们尚不清楚如何利用这些模态来提升ChatGPT的智能水平。
为什么会这样呢?这可能只是一个科学或工程挑战,我们可能没有采用正确的方法;但也有可能文本本身具有某种特殊性。毕竟,互联网上的每一段文本(在LLM出现之前)都是人类思维过程的反映。从某种意义上说,人类撰写的文本经过预处理,具有非常高的信息含量。
相比之下,图像只是我们周围世界未经人类干预的原始视角。确实有可能,由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。
因此,在有人证明情况相反之前,让我们假设只有文本数据才是重要的。
那么,我们有多少文本数据呢?
下一个问题是,这个数据集可能有多大。
许多人已经讨论过,如果文本数据用完了,我们应该如何应对。这种情况被称为“数据墙”或“token危机”,人们已经探讨了如果我们真的用完了数据该怎么办,以及如何扩展我们的模型。
而这种情况似乎真的正在发生。许多大型人工智能实验室的工程师已经花费了无数小时,从网络的各个角落刮取每一个有用的文本片段,甚至转录了数百万小时的YouTube视频,并购买了大量新闻故事来进行训练。
幸运的是,这里可能还有另一个数据源可用(可验证的环境!),但我们稍后再讨论这个。
在上文中,我们发现了一个重要的原则:通向超级智能的最佳路径在于文本数据。换句话说,AGI很可能就是LLM,或根本不存在。其他一些有前景的领域包括从视频和机器人技术中学习,但这些领域似乎都远未达到在2030年前产生独立智能系统的水平。它们也需要大量数据;从文本中学习自然非常高效。
现在我们必须面对最重要的问题。超级智能的学习算法是什么?
在机器学习领域,从大型数据集中学习的基本方法(经过验证)有两种。一种是SL,即训练模型以增加某些示例数据的概率。另一种是RL,涉及从模型中生成数据,并因其采取“良好”行动(由用户定义的“良好”标准)而给予奖励。
既然我们了解了这一分类,就清楚任何潜在的超级智能系统都必须通过SL或RL(或两者结合)进行训练。
让我们分别探讨这两种方案。
还记得2023年吗?那正是人们开始对scaling laws感到兴奋的时候;GPT-4发布后,人们担心如果模型继续规模化,可能会变得危险。
图|大约在2023年,很多人开始担心,LLM通过简单的监督学习扩展后,很快会演化为超级智能。
有一段时间,人们普遍认为大量的SL,特别是以“next-token prediction”的形式,可能导致超级智能AI的出现。值得注意的是,Ilya Sutskeve曾发表过一场演讲,指出next-token prediction本质上是在学习压缩“(信息)宇宙”,因为要做好这一点需要模拟所有可能的程序(或者类似的东西)。
我认为他的论点大致如下:
准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模
你对一个人的建模越准确,就越能接近这个人的智能
由于互联网包含许多人撰写的文本,因此在大型文本预训练数据集上进行训练,就需要准确建模许多人的智能
准确建模许多人的智能就是超级智能
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">(1)“ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">氛围ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;font-style: normal;font-weight: normal;">”论:我们能否通过模拟人类实现超级智能?
我个人认为,这种逻辑存在一些缺陷,首先,我们似乎已经创建了在next-token prediction方面远超人类水平的系统,但这些系统仍无法展现人类级别的通用智能。某种程度上,我们构建的系统虽然学会了我们要求它们学习的内容(next-token prediction),却仍无法完成我们期望它们完成的任务(如不凭空杜撰地回答问题、完美遵循指令等)。
这可能仅仅是机器学习的失败。我们一直在训练一个模型,以预测每种情况下的人类平均结果。这种学习目标鼓励模型避免给任何一种可能的结果赋予过低的概率。这种范式常常导致所谓的“模式崩溃”(mode collapse),即模型在预测平均结果方面非常出色,却未能学习分布的尾部。
这些问题可能在规模扩展后消失。拥有数十亿参数的模型,如Llama,会产生幻觉,但仅有10^9个参数。当我们训练拥有10^19个参数的模型时会发生什么?或许这足以让单个LLM独立给全球80亿人类建模,并为每个人提供独立的数据驱动预测。
(2)Infra论:我们无法扩展模型和数据
但事实证明,这已无关紧要,因为我们可能永远无法扩展到10^19个参数(的规模)。这一假设基本上源于2022年左右的深度学习学派,他们受语言模型scaling laws的巨大成功驱动,认为持续扩展模型和数据规模将实现完美智能。
现在是2025年。这一理论论点仍未被挑战,scaling laws也一直有效。但事实证明,当规模超过一定阈值后,扩展模型变得非常困难(而早在2022年,我们已经非常接近能够有效处理的极限)。企业已经远远超出了我们用单台机器能够做到的范围——所有最新模型都是在由数百台机器组成的巨型网络上训练的。
继续将模型规模扩展到万亿级参数,正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力,以至于无法集中部署于单一地点;企业正在研究如何将模型训练分布到多个遥远的数据中心,甚至收购、修复废弃核电站来训练下一代更大规模的AI模型。我们正处于一个疯狂的时代。
除了模型规模,我们可能还面临数据不足的问题。没有人知道每个模型在训练过程中使用了多少互联网数据,但可以肯定的是,数量相当庞大。过去几年,大型人工智能实验室投入了巨大的工程努力,从互联网文本数据中榨取最后一点价值:例如,OpenAI似乎已经转录了整个YouTube,而像Reddit这样的高质量信息网站也被反复抓取。
将模型规模扩展到超过1000亿参数似乎很困难,同样,将数据规模扩大到20T tokens以上也很困难。这些因素似乎表明,在未来三到四年内,SL的规模很难再扩展10倍以上——因此,对超级智能的探索可能不得不从其他地方寻找突破口。
也许你认同上述观点之一:要么我们在很长一段时间内都无法将预训练规模再提升几个数量级,要么即使我们做到了,在预测人类token方面表现得非常出色,也无法构建比人类更聪明的系统。
还有另一种方法。RL领域提供了一整套方法,可通过反馈而非仅依赖演示进行学习。
为什么我们需要SL?
RL是非常难的。你可能会好奇,为什么我们不能全程使用RL。从实际角度来看,RL有许多缺点。简而言之,SL比RL稳定且高效得多。一个易于理解的原因是,由于RL通过让模型生成动作并对其进行评分来工作,一个随机初始化的模型基本上是糟糕的,所有动作都毫无用处,它必须偶然做好一些事才能获得任何形式的奖励。这就是所谓的冷启动问题,而这只是RL众多问题中的一个。基于人类数据的SL被证明是解决冷启动问题的有效方法。
让我们重新梳理RL的范式:模型尝试各种操作,然后我们告知模型这些操作的表现好坏。这可通过两种方式实现:要么由人类评估者告知模型表现优劣(这大致是典型RLHF的工作原理),要么由自动化系统完成此任务。
在此第一种范式下,我们为模型提供基于人类的奖励。我们希望模型具备超级智能,因此希望对其生成更接近超级智能(由人类评判)的文本进行奖励。
实际上,这类数据的收集成本极高。典型的RLHF设置中,需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的,因为它们使我们能够提供远超实际人类反馈量的反馈。换言之,它们是计算上的辅助工具。我们将把奖励模型视为工程细节,暂且忽略它们。
因此,设想这样一个世界:我们拥有无限数量的人类来为LLM标注数据,并提供任意奖励,其中高奖励意味着模型的输出更接近超级智能。
图|“一千只猴子在一千台打字机前工作。很快,它们将写出人类历史上最伟大的小说。”——伯恩斯先生,《辛普森一家》
忽略所有程序复杂性。假设这种方法能够实现大规模应用(尽管目前可能无法实现,但未来或许可行)。这会有效吗?一个仅通过人类奖励信号学习的机器,能否沿着智能阶梯不断进步,并最终超越人类?
换个方式问:我们能否“验证”超级智能的存在,即便我们自己不能生成它?记住,人类从定义上来说不是超级智能。但当我们看到超级智能时,能否识别出它?我们能否以足够可靠的方式识别,从而为LLM提供有用的梯度信号,使其可以收集大量此类反馈自我提升至超级智能?
有人会指出“生成自然会比验证更难”。你看一部好电影时就知道它好,但这并不意味着你可以自己去制作一部。这种二分法在机器学习中经常出现。区分猫的照片和狗的照片在计算上要比生成完整的猫容易得多。
同样地,如果人类能够验证超级智能,那么可能可以通过RLHF来训练一个超级智能模型。以具体例子来说,你可以让一个LLM撰写大量小说,根据人类对“好小说”的定义对其进行奖励,然后多次重复这个过程,直到你得到一个能够撰写小说的超级智能机器。
你是否注意到这种逻辑中存在任何问题?
最近,人们对使用类似方法训练更好的语言模型感到兴奋。
当我们让计算机评估RL算法的阶段性性能时,可以使用模型或自动验证器。对于自动验证器,可以参考国际象棋或编程场景。我们可以编写规则来检查计算机是否赢得了国际象棋比赛,并在将死对手时给予奖励。在编程中,我们可以运行单元测试,对编写符合某些规格的代码的计算机给予奖励。
使用验证器会更加实用——它将使我们能够完全去除人类的参与(尽管人类曾用于编写整个互联网)。使用验证器实现超级智能的方案大致如下:
使用SL在大量互联网文本上预训练一个LLM;
将其接入一个能够为优质LLM输出提供奖励的验证系统;
运行很长时间;
实现超级智能。
这个思路靠谱吗?它真的可行吗?
众所周知,DeepMind的AlphaGo通过RL与SL的结合实现了“围棋霸主地位”(即击败所有人类选手,甚至那些训练了数十年的高手)。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。
图|2016年,AlphaGo以四胜一负的成绩击败了当时的人类围棋冠军李世石。最初的AlphaGo是通过SL进行训练的。接下来的AlphaGo版本通过RL进行学习:通过自我对战数百万局进行学习。
需要注意的是,围棋具有许多现实世界任务所不具备的重要特性,围棋具有固有的可验证性。我们可以将围棋对局输入到基于规则的计算机程序中,并获得一个信号,指示我是否获胜。从长远来看,你可以根据某一步棋对游戏以胜利结束的概率的影响,判断这一步棋是否“好”。这基本上就是RL的工作原理。
借助这种可验证性,AlphaGo实现了AI实验室长期以来追求的一个重要目标:AlphaGo在思考时间更长时表现更佳。语言模型默认无法做到这一点。
但这正是OpenAI去年秋季宣布的突破性成果。他们利用可验证奖励强化学习(RLVR)训练了o1模型,该模型与AlphaGo一样,能够通过更长时间的思考产生更优的输出:
图|在o1博客文章中,OpenAI介绍了一系列“推理模型”,这些模型通过RLVR进行学习
观察上方的美丽图表(注意对数x轴!),我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题:这是在AIME数据集上的结果——AIME是一组极为困难、答案为整数的数学题。换言之,这不是开放式任务,而是可验证的任务,因为我们可以检查LLM是否生成正确答案,并据此奖励模型。
事实证明,当前的LLM在预训练后能够很好地处理任意任务,它们可以对AIME问题做出合理的猜测,而我们可以利用RL来训练它们,使其随着时间的推移做出越来越好的猜测。(最酷的部分,我们在此不做展开,是它们在这一过程中会生成越来越多的“思考token”,从而为我们提供如上文o1博客文章中所示的测试时计算图。)
显然,OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋,并认为这可能为他们带来超级智能。我认为,这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务。
让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程(可以通过运行代码来验证其正确性)以及数学(不是证明,而是有数值解的问题)。如果我们能够收集世界上所有可验证的事物,并同时对它们进行训练(或分别训练,然后进行模型合并)——这真的会产生通用超级智能吗?
这里存在几个逻辑跳跃。最重要的是,我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票?或者,在可验证环境中训练模型提升编程能力,是否能使其成为更优秀的软件工程师?
假设这种情况确实成立,且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛,争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能,有多家公司以这种方式推出“超级智能LLM”。
但这种结果在我看来似乎不太可能。我猜如果RL确实能够极好地迁移到其他领域,那我们现在应该已经知道了。我谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |