人工神经元是深度神经网络的核心构件,几十年来几乎没有发生太大变化。这些网络赋予了现代人工智能强大的能力,却也让其变得难以理解。
传统人工神经元的运作原理看似简单:它们接收大量输入,将其加总后,通过神经元内部的数学运算生成输出。这些神经元的组合构成了神经网络,但这些组合的复杂性常让人难以解读其运行机制。
然而,科学家们最近提出了一种全新的神经元组合方式,显著简化了神经元内部的运算,同时将部分复杂性移至神经元外部。在这种设计中,新的神经元只需对输入进行简单求和并生成输出,无需额外的隐藏运算。这种新型网络被称为 Kolmogorov-Arnold Networks(KANs),以启发该设计的俄罗斯数学家命名。https://arxiv.org/abs/2404.19756
KAN:带来全新可能的网络结构
麻省理工学院(MIT)领导的一项研究对KAN进行深入分析,发现这种新架构有助于更清晰地理解神经网络的决策过程,不仅能验证其输出的合理性,还能检测潜在的偏差。初步研究表明,随着KAN规模的增大,其精度提升速度甚至比传统神经网络更快。
纽约大学机器学习领域的学者Andrew Wilson对此评价道:“这项研究非常有意思,人们正在重新思考神经网络的基本设计,这是一个可喜的方向。”
KAN的基本概念实际上早在上世纪90年代就被提出,当时研究者已经开始构建一些简单版本。然而,MIT团队进一步扩展了这一想法,展示了如何构建和训练更大规模的KAN,并通过实验验证了它们的表现,同时分析了这些网络的解决问题能力如何被人类解读。正如团队成员、MIT博士生刘子明所说:“我们让这一理念焕发新生。希望通过这种可解释性,不再让神经网络像个黑箱。”
尽管这项研究仍处于初期阶段,但已引发广泛关注。目前,GitHub上已出现了多个项目展示KAN在图像识别和流体动力学等领域的应用潜力。
重塑神经网络:从MLP到KAN
目前几乎所有类型的人工智能,包括大语言模型和图像识别系统,都基于一种名为多层感知机(MLP)的子网络。在MLP中,人工神经元通过层层密集连接,每个神经元接收来自前一层神经元的输入,并通过一种称为“激活函数”的固定数学运算生成输出。这种设计虽然强大,但其内部机制复杂得几乎无法反向解析,尤其是在处理图像识别等复杂任务时。
即便是面对简单的合成数据集,刘子明团队尝试逆向解析MLP时也感到困难。他直言:“如果连合成数据都难以解析,那处理真实数据集就完全没希望了。我们想要改变这种架构。”
KAN的突破在于移除了MLP中固定的激活函数,取而代之的是一个更简单的、可学习的函数。这些函数位于神经元外部,每次只处理一个输入值,并将其转换为另一个输出值。在训练过程中,KAN无需像MLP那样学习复杂的权重,而是仅需学习如何表示这些简单函数。研究团队在预印本网站ArXiv上发表的论文中指出,这种设计使得KAN整体的数学形式更易于解读,有望理解其学习到的具体功能。
KAN的未来与挑战
虽然KAN在合成数据上的解释性成果令人鼓舞,但团队尚未在复杂的真实问题(如图像识别)上测试其能力。刘子明表示:“我们正在逐步推进,但解释性本身就是一项极具挑战的任务。”
研究还表明,在科学相关任务(例如物理函数近似)中,随着KAN规模的增大,其任务准确度提升速度显著快于MLP。不过,KAN的训练耗时和计算成本也高于MLP。中国西交利物浦大学的张笛认为,这一限制或可通过更高效的算法和硬件加速器来缓解。
尽管面临挑战,KAN的出现为人工智能网络的设计与理解开辟了全新方向,也许有朝一日,神经网络的“黑箱”问题将成为历史。