2024 年 4 月的一项研究(opens a new tab)引入了一种替代神经网络设计,称为 Kolmogorov-Arnold 网络 (KAN),它更加透明,但也可以完成常规神经网络解决某类问题的几乎所有工作。它基于 20 世纪中叶的一个数学思想,该思想已被重新发现并重新配置,以便在深度学习时代进行部署。
虽然这项创新才刚刚推出几个月,但新设计已经引起了研究和编码社区的广泛兴趣。“KAN 的可解释性更强,对于科学应用可能特别有用,因为它们可以从数据中提取科学规则,”约翰霍普金斯大学的计算机科学家 Alan Yuille(opens a new tab)说。“[它们] 是无处不在的 MLP 的令人兴奋的新颖替代品。”研究人员已经在学习充分利用他们新发现的能力。
然而,在过去的 35 年里,人们认为 KAN 从根本上是不切实际的。麻省理工学院 (Massachusetts Institute of Technology) 的物理学家转为计算神经科学家的 Tomaso Poggio 于 1989 年合著的一篇论文(opens a new tab)明确指出,KAN 核心的数学思想“在学习网络的背景下无关紧要”。
Poggio 的一个担忧可以追溯到 KAN 核心的数学概念。1957 年,数学家安德烈·科尔莫戈罗夫(opens a new tab) 和弗拉基米尔·阿诺德(opens a new tab)在单独的互补论文中表明,如果你有一个使用许多变量的数学函数,你可以将其转换为多个函数的组合,每个函数都有一个变量。
然而,有一个重要的问题。定理吐出的单变量函数可能不是“平滑的”,这意味着它们可以像 V 的顶点一样具有锋利的边缘。对于任何试图使用定理重新创建多变量函数的网络来说,这都是一个问题。更简单的单变量部分需要平滑,以便它们可以在训练过程中学会以正确的方式弯曲,以匹配目标值。
因此,KANs 的前景似乎很渺茫——直到今年 1 月的一个寒冷的日子,麻省理工学院的物理学研究生Ziming Liu(opens a new tab)决定重新审视这个主题。他和他的导师、麻省理工学院物理学家马克斯·泰格马克(opens a new tab)一直在努力使神经网络更容易被科学应用所理解,希望能让我们窥探黑匣子的真相,但事情并没有顺利。在绝望中,Liu 决定研究 Kolmogorov-Arnold 定理。他问道:“为什么不直接尝试一下,看看它是如何工作的,即使人们过去没有给予它太多的关注呢?
Liu 花了大约一周的时间研究这个想法,在此期间,他开发了一些原型 KAN 系统,所有系统都有两层——最简单的网络,以及研究人员几十年来一直关注的类型。两层 KAN 似乎是显而易见的选择,因为 Kolmogorov-Arnold 定理本质上为这种结构提供了蓝图。该定理专门将多变量函数分解为不同的内部函数和外部函数集。(这些代替沿边的激活函数,这些函数替代 MLP 中的权重。这种排列自然而然地适合于具有神经元内层和外层的 KAN 结构——这是简单神经网络的常见排列。
但令 Liu 沮丧的是,他的原型在他心目中与科学相关的琐事上都没有表现良好。Tegmark 随后提出了一个关键建议:为什么不尝试使用具有两层以上层的 KAN,它可能能够处理更复杂的任务?
这种开箱即用的想法正是他们需要的突破。Liu 刚刚起步的人际网络开始显示出希望,因此两人很快就联系了麻省理工学院、加州理工学院和东北大学的同事。他们希望他们的团队中有数学家,以及他们计划让 KAN 分析的领域的专家。
在他们4 月份的论文(opens a new tab)中,该小组表明具有三层的 KAN 确实是可能的,并提供了一个可以精确表示函数的三层 KAN 示例(而两层 KAN 则不能)。他们并没有就此止步。此后,该小组试验了多达六层,每一层,网络都能够与更复杂的输出函数保持一致。“我们发现,基本上,我们可以根据需要堆叠任意数量的图层,”合著者之一 Yixuan Wang(opens a new tab)说。
经过验证的改进
作者还在两个现实世界的问题上放宽了他们的网络。第一个与称为结理论的数学分支有关。2021 年,DeepMind 的一个团队宣布他们已经构建了一个 MLP,可以在获得足够多的结的其他属性后预测给定结的某个拓扑属性。三年后,新的 KAN 复制了这一壮举。然后,它更进一步,展示了预测的属性如何与所有其他属性相关联——Liu 说,这是“MLP 根本做不到的事情”。
第二个问题涉及凝聚态物理学中一种称为 Anderson 局部化的现象。目标是预测特定相变将发生的边界,然后确定描述该过程的数学公式。从来没有 MLP 能够做到这一点。他们的 KAN 做到了。
但 Tegmark 说,KAN 相对于其他形式的神经网络的最大优势,以及它们最近发展背后的主要动机,在于它们的可解释性。在这两个例子中,KAN 不仅仅是吐出一个答案;它提供了一个解释。他问道:“某物是可解释的是什么意思?“如果你给我一些数据,我会给你一个公式,你可以写在 T 恤上。”
约翰霍普金斯大学研究机器学习的物理学家Brice Ménard(opens a new tab)说,KAN 执行此操作的能力虽然到目前为止是有限的,但表明这些网络理论上可以教会我们关于世界的新知识。“如果问题实际上是用一个简单的方程来描述的,那么 KAN 网络非常擅长找到它,”他说。但他警告说,KANs 最擅长的领域可能仅限于问题,例如物理学中发现的问题,在这些领域中,方程式的变量往往非常少。
Liu 和 Tegmark 同意,但并不认为这是一个缺点。Tegmark 说,“几乎所有著名的科学公式”——例如E=mc2——“都可以用一个或两个变量的函数来写”。“我们所做的绝大多数计算都依赖于一两个变量。KANs 利用这一事实并寻找这种形式的解决方案。
终极方程
Liu 和 Tegmark 的 KAN 论文很快引起了轰动,在大约三个月内获得了 75 次引用。很快,其他小组开始开发自己的 KAN。清华大学的 Yizheng Wang 等人于 6 月在网上发表的一篇论文(opens a new tab)显示,他们的 Kolmogorov-Arnold 信息神经网络 (KINN) 在求解偏微分方程(PDE) 方面“明显优于”MLP。这不是一件小事,Wang 说:“偏微分方程在科学中无处不在。
新加坡国立大学(National University of Singapore)的研究人员在7月的一篇论文(opens a new tab)中的观点更加复杂。他们得出结论,KAN 在与可解释性相关的任务中优于 MLP,但发现 MLP 在计算机视觉和音频处理方面表现更好。这两个网络在自然语言处理和其他机器学习任务方面大致相等。对 Liu 来说,这些结果并不令人惊讶,因为最初的 KAN 小组一直专注于“与科学相关的任务”,其中可解释性是重中之重。
同时,Liu 正在努力使 KAN 更实用、更易于使用。8 月,他和他的合作者发表了一篇名为“KAN 2.0”的新论文(opens a new tab),他将其描述为“更像一本用户手册,而不是传统论文”。Liu 说,这个版本更加用户友好,提供了乘法工具以及其他功能,这是原始模型中所缺乏的。