|
今年年初开始,ChatGPT、Kimi、文心一言、抖音豆包等聊天产品在互联网爆火,所有这些 AI 聊天机器人,都是基于大语言模型,通过特定的训练来实现人机对话的。 对于非人工智能从业者而言,如何理解“模型”?今天小野就用大白话给大家整明白什么是“模型”和“训练”,搞懂“大模型”背后的奥秘。
现在在 AI 领域中大火的“模型”概念,其实跟乐高积木模型非常相似,它们都是现实世界的一个缩影,是我们对这个世界的一种理解。 比如恐龙,没有人真的见过恐龙,所以无论是乐高积木,还是经典的电影《侏罗纪公园》,这里面的“恐龙”都是模型,是人类对真实的恐龙生物的一种猜测和理解。
“训练模型”就是“学习现有知识并理解世界”的过程。比如恐龙模型来源于各种现实世界的证据: ...... 根据这些证据,科学家们可以学到关于恐龙的知识,比如体型、习性等,然后复原恐龙外观。
以棘龙为例,在发掘棘龙的化石后,科学家根据骨骼的表面结构、现存“恐龙近亲”动物(比如鸟类和鳄鱼)的肌肉等知识,了解棘龙并勾勒它的形态。 根据 1900 年以前发掘的棘龙化石,20 世纪初,科学家们得到了第一个棘龙模型:
(因此棘龙的英文Spinosaurus也意为“有棘的蜥蜴”,确实是很像...) 然而,在20 世纪 90 年代末,棘龙的上颌化石被发掘,这个棘龙颌骨与鳄鱼颌骨有更多相似之处,表明棘龙的嘴应该更像鳄鱼,而不是蜥蜴。 因此棘龙模型也迎来了升级:
一个好的模型在面对从未见过的实据时,也应该适用——显然我们的 20世纪模型(黄色)并没有很好,因为它与新化石“鳄鱼般的上颌”产生了冲突,因此这个模型被优化成为了右边的棘龙模型(蓝色)。

20世纪之前的化石是初版模型的“训练数据”,即构成这个模型的数据;这个模型出现之后的化石就是“验证数据”,用于检验这个模型是否正确——这两个分类也是 AI 模型的数据分类。 所有模型都会经历上面的阶段:训练-建模-验证-模型优化,如果这个优化过程多次发生,我们称为“模型迭代”。棘龙模型也经历了 100 年的迭代: 2014 年,青年棘龙骨骼化石被发掘,科学家们推断棘龙的后腿应该更短;2020 年,根据它的近亲恐龙的化石足迹,棘龙可能有脚蹼并且适合游泳捕鱼。棘龙模型的迭代揭示了所有的模型(包括计算机的模型概念)的共性:不断出现的证据帮助我们学习并贴近“真相”,但模型永远不会等同于真相。
总的来说,“模型”就是我们对真实世界的一种理解,“训练”就是这个理解和学习的过程。 这个解释对于计算机模型而言同样适用。 比如我们想要把棘龙放到电影《侏罗纪公园》里,就需要给计算机提供物体光影数据、肌肉数据、纹理材质等数据,让计算机学习和计算,获得一个动态棘龙模型: 一般来说,数据越多,模型越贴近真实世界的模样——这也是为什么现在基于大模型做出来的聊天机器人这么像真人,因为这些模型背后是海量的数据(这也是大模型为什么叫“大”模型)。 但由于计算机建模是需要“计算”的,因此模型的效果也受到载体计算机性能的影响。这也就是为什么你和 Kimi、豆包聊天必须联网,因为它们的载体实际上是远端更专业的计算机,个人设备很难实现很真实的模型效果。 比如在游戏中,由于个人电脑性能有限且需要画面实时加载,因此棘龙模型比较“假”: 而在电影《侏罗纪公园》中,棘龙打架不再“穿模”,可以正确用嘴而咬到对方(而不是上图中的“脖子咬人”),打斗效果更逼真:
这也是为什么开源的聊天机器人常常提供多个版本——比如我们之前介绍的大模型Llama 3就有 8 B 参数和 70 B 参数两个版本的模型,因为参数越少意味着需要更低的计算机性能,个人电脑也更可能负担得起。如果模型的参数很大,就需要超级计算机了。
棘龙的例子帮我们理解了通用的模型概念:“模型”就是我们对真实世界的一种理解,“训练”就是这个理解和学习的过程。 但是不同的模型实际上有不同的训练/学习办法,比如过去十年大火的“机器学习”、“神经网络”、现在大模型中更常见的“深度学习”、“无监督学习”等······选择正确的方法会让模型训练事半功倍。在后续的文章中,我们会继续介绍它们。 |