合成数据(Synthetic data)通常被看作是继续扩展模型规模的关键途径。换句话说,目前的模型或许能够用来为下一代模型生成训练数据。
但我们认为这种看法基于一种错误的认识 —— 我们不相信开发者正在使用(或者能够使用)合成数据来增加训练数据量。有一篇论文[11]详细列出了合成数据在模型训练中的各种使用场景,并且都是为了弥补具体差距,并针对特定领域(比如数学语言、编程语言或其他 low-resource languages(译者注:在数字世界中可用资源较少的语言。))进行改进的使用场景。同样, Nvidia 最近推出的 Nemotron 340B 模型[12],专注于生成合成数据,该模型的主要应用场景就是数据对齐(译者注:alignment,确保合成数据与真实数据在分布上尽可能接近,以便合成数据可以有效地用于训练和提升模型性能。)。虽然还有一些次要用途,但用合成数据取代当前的用于预训练机器学习模型的数据源(sources of pre-training data)并不是其目标。简而言之,盲目生成合成训练数据不太可能达到人类生产的高质量数据相同效果。
在某些案例中,合成数据的效果十分好,例如 AlphaGo[13] 在 2016 年击败了围棋世界冠军,以及它的后续版本 AlphaGo Zero 和 AlphaZero[14] 。这些系统通过自我对弈来学习下棋♟,后两者甚至没有使用任何人类棋谱作为训练数据。它们通过大量计算生成了相对高质量的棋谱数据,然后用这些棋谱数据集来训练神经网络,神经网络再结合计算生成更高质量的棋谱数据集,从而形成了一个迭代改进的正向循环。
自我下棋对弈♟是 “System 2 --> System 1 distillation” 过程的典型案例,在这个例子中,缓慢且昂贵的 “System 2” 模型生成训练数据,用以训练一个快速且经济的 “System 1” 模型。这种方法对于像围棋这样完全封闭的游戏非常有效。将自我对弈(self-play)应用于游戏之外的领域是一个有价值的研究方向。在诸如代码生成(code generation)等重要领域,这种策略可能很有价值。但我们不能指望在更开放的任务(open-ended tasks)中(比如语言翻译),能无限期地自我完善、提升。我们应该期待,能够通过自我对弈实现重大改进的领域是特殊情况,而不是普遍规律。
模型越来越小,但训练时间却越来越长
从历史角度来看,数据集大小、模型大小和投入的训练算力 —— 这三个要素通常是同步增长的[15],这一点也已经被证明是最佳的。但如果其中某个要素(高质量数据)成为瓶颈,其他两个要素,模型大小和投入的训练算力,是否还会继续增长?
根据当前的市场趋势,即使构建更大的模型能够解锁新的能力,但这似乎并不是一个明智的商业选择。这是因为模型的能力不再是大家选用某款模型所考虑的主要因素。换句话说,有许多应用程序都可以利用当前 LLMs 的能力来构建,但由于使用成本等原因,这些 Apps 没有被构建或使用。对那些可能需要多次调用[16] LLMs 来完成某项任务的 “agentic” 工作流程(例如代码生成(code generation)[17])来说尤其如此。
在过去的一年中,大部分开发工作都集中于在保持一定能力的前提下,开发更小的模型 5。前沿模型开发者不再公开模型的具体规模,所以我们无法确切知道这一点,但我们可以通过观察 API 定价来大致推测模型的规模。例如,GPT-4o 的成本是 GPT-4 的 25%,而能力相似或甚至更强。在 Anthropic 和 Google 系列模型也看到了同样的模式。Claude 3 Opus 是 Claude 模型家族中最昂贵(也可能是规模最大的)模型,但最近推出的 Claude 3.5 Sonnet 不仅使用成本是前者的五倍,而且能力也更强。同样,Gemini 1.5 Pro 不仅使用成本更低,而且模型能力也更强大。因此,规模最大的模型并不一定是最强大的!
然而,另一方面,用于模型训练的算力规模可能还会继续增长。尽管看起来有些矛盾,但实际上较小的模型需要更多训练迭代次数才能达到与较大模型相同的性能水平。因此,减小模型规模后,为了保持相同的性能水平,开发者需要消耗更多的训练计算资源。开发者必须在训练成本和推理成本之间做出权衡。早期的模型(如 GPT-3.5 和 GPT-4)在一定程度上被认为是训练不足的,因为在它们的整个生命周期中,推理成本被认为是训练成本的主要部分。理想情况下,这两者应该大致相等,因为总是有可能用训练成本的增加换取推理成本的减少,反之亦然。有这么一个典型案例:80 亿参数规模的 Llama 3 模型在训练过程中使用了 20 倍于原始 Llama 模型(大约70亿参数)的浮点运算次数(FLOPs)。
The ladder of generality
一个支持我们不太可能通过 “scaling” 看到模型拥有更多能力提升观点的迹象是,AI 巨头的 CEO 们已经大幅降低[18]了他们对通用人工智能(AGI)的预期。遗憾的是,他们并没有承认他们对“三年内实现AGI”的预测是错误的,而是为了挽回面子,决定淡化 AGI 的含义,以至于现在 AGI 的含义变得毫无意义。从一开始,AGI 就没有被明确定义[19],这对它的发展很有帮助。
我们不必将泛化能力视为一个非黑即白的问题(binary),我们可以将其视为一个连续的过程(spectrum)。在过去,为了让计算机执行一个全新的任务,需要大量的编程工作,可能需要编写和测试大量的代码。然而,随着技术的发展,出现了更高级的编程语言、更高效的编程工具和更智能的编程辅助系统,使得编程变得更加自动化和易于操作。我们可以将其视为泛化能力的提升。这一趋势始于从专用计算机(special-purpose computers)向图灵机(Turing machines)的转变。从这个角度看,大语言模型的泛化能力并不是一个全新的概念。
这就是我们在《AI Snake Oil》[20]一书中所持的观点,其中有一章专门讨论 AGI。我们将人工智能的发展视为一种 punctuated equilibrium (译者注:是一个生物学术语,由古生物学家尼尔斯·埃德雷(Niles Eldredge)和史蒂芬·杰·古尔德(Stephen Jay Gould)在1972年提出,用来描述生物进化的一种模式。在这种模式中,物种的形态在长时间的稳定期(equilibrium)之后,会经历短暂的、快速的形态变化(punctuation),这些变化可能伴随着物种的灭绝和新物种的产生。这个概念在此强调了技术进步的不连续性和突发性,而不是持续和稳定的线性发展。)的过程,我们称之为 “The ladder of generality”(并不意味着泛化能力的进步是线性的)。指令调优(Instruction-tuned)的 LLMs 是这个阶梯(ladder)上最新的一步。在我们能让 AI 像人类一样有效地完成任何有经济价值的工作(这是 AGI 的一种定义)的泛化水平之前,我们还有许多台阶要走。
回顾历史,当人类站在阶梯的每一级台阶时,AI 研究领域都很难预测当前范式还能走多远、下一级台阶会是什么、它将何时到来、会开启哪些新应用以及对安全性的影响。我们认为这一趋势还将继续下去。
扩展阅读
Leopold Aschenbrenner 最近发表了一篇文章[21],声称 "到 2027 年实现 AGI 是非常有可能的",这引起了轩然大波。我们没有试图在此逐点反驳 —— 这篇文章的大部分内容都是在 Aschenbrenner 的那篇文章发布之前草拟的。Leopold Aschenbrenner 对于 AGI 将在2027年实现的观点,虽然有趣且引人深思,但本质上是一种趋势线外推预测方法的使用。此外,像许多 AI 推动者一样,他将基准性能与现实世界中的实用性混为一谈[22]了。
许多 AI 研究人员都对他的观点持怀疑态度,包括 Melanie Mitchell、Yann LeCun、Gary Marcus、François Chollet 和 Subbarao Kambhampati 等人。
Dwarkesh Patel 为这场辩论的双方观点进行了很好地概述[23]。
致谢:感谢 Matt Salganik、Ollie Stephenson 和 Benedikt Ströbl 对本文初稿的反馈意见。
脚注:
1. 如果能够找到一个平滑而非不连续变化的泛化能力度量标准,那么新出现的能力将是可预测的。然而,找到这样一个度量标准并不容易,尤其是对于那些需要综合技能的任务而言。在实践中,下一个数量级上是否会出现新能力以及哪些新能力将出现,这个问题谁也说不准。
2. 人工智能公司确实使用转录的 YouTube 文本数据进行训练,但这些数据之所以有价值,是因为它可以帮助 LLMs 学习口语对话,而不是因为其数据数量庞大。
3. 自由主义评论家(Libertarian commentators)将飞机速度的停滞增长完全归因于监管,但这是错误的,或者充其量是过于简单化了。诚然,FAA 在 1973 年基本上禁止了民用飞机在美国陆地上空进行超音速飞行。但最快的飞机都是军用飞机,所以禁令对它们没有影响。而且,民用飞机的巡航速度远低于 1 马赫,这是出于燃油效率和其他考虑。
4. 关于 LLMs 的训练是否可以通过使用更少的训练数据(样本)来达到同样的甚至更好的性能,仍然存在争议。毕竟,人类儿童在接触到比 LLMs 少得多的词汇后就能学会语言。另一方面,人类儿童是“摇篮里的科学家”,在很早就开发出了世界模型(world models)和推理能力(reasoning abilities),也许这就是他们能够高效学习语言的原因。这场争论与本文的观点无关。如果模型在处理特定任务或进行外推(extrapolation)时存在困难,那么这些困难将成为限制 LLMs 能力的主要因素,而不是样本数据的使用效率(译者注:sample efficiency,指的是模型在训练过程中使用最少的数据量就能达到良好性能的能力。)。
5. 即便模型开发者发布了规模更大的模型(以参数数量计算),也越来越关注推理效率(例如在 MoE 模型 Mixtral 8x22B 中),推理过程中的有效活跃参数数量远远低于总参数数量。