尽管这一概念已存在数十年,世界模型最近因其在生成视频领域的应用潜力而受到关注。几乎所有AI生成的视频都会进入“不适之谷”(即让人感到怪异的状态),如果看得足够久,会发现奇怪的现象,如四肢扭曲、融合等。
一个基于多年视频训练的生成模型或许能预测篮球会弹跳,但它并不理解为什么篮球会弹跳,就像语言模型并不真正理解词汇背后的含义一样。但一个具有基础理解的世界模型则可以更好地表现篮球弹跳的行为。
为了实现这种洞察,世界模型会训练大量的数据,包括图片、音频、视频和文本,以形成世界运作的内部表征,并推理出行为的后果。正如Higgsfield AI创建者马什拉博夫(Mashrabov)所言: