Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

290次阅读
没有评论

Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架


关键词:深度神经网络,统计物理,机器学习可解释性


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

 Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

论文题目:A statistical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit论文来源:Nature Machine Intelligence论文地址:https://www.nature.com/articles/s42256-023-00767-6斑图地址:https://pattern.swarma.org/paper/946de568-9df9-11ee-bc79-0242ac17000e

在计算技术进步的推动以及数十年研究的铺垫下,深度学习的发展超过了研究者为之构建坚实理论基础的解释能力。多个研究团队长期努力在基础层面上填补我们理解深度学习的空白。统计物理在这方面取得了深远的成果,并且仍然是一个新的视角和突破的源泉。


尽管深度神经网络在实践中取得了成功,但目前缺乏一个全面的理论框架,可以从训练数据的知识中预测实际相关的分数,如测试准确度。在无限宽度的极限下,每个隐藏层中的单位数Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架(其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架=1,…,L,其中L为网络的深度)远远超过训练示例数P,因此会出现巨大的简化。然而,这种理想化与深度学习实践的现实明显不符。该研究使用统计力学的工具集来克服这些限制,并推导出完全连接的深度神经结构的近似配分函数,它编码了有关训练模型的信息。该计算在热力学极限下进行,其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架和P都很大,它们的比率Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架则是有限的。这一进展使我们获得:(1)一个针对具有有限α1的单隐藏层网络的回归任务相关的泛化误差的闭合公式;(2)深度架构的配分函数的近似表达式(通过一个依赖有限数量序参量的有效作用),以及(3)深度神经网络在比例渐近极限下与学生t过程(Student’s t-processes)之间的联系。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图1. 1HL网络的学习曲线。通过方程进行有限宽度1HL(one-hidden-layer)结构的泛化误差的可测试预测。a,基于Erf激活函数的1HL架构的学习曲线,测试误差随隐藏层尺寸N1变化。在不同训练集大小P上进行实验测试损失(带有误差条表示一个标准差)与从方程1计算得出的理论进行比较(实线)。b、c,最后一层的高斯先验λ1的不同值下的测试误差随N1的变化曲线。其中,误差条在点内,虚线用于引导观察(图2、3同)。网络在来自CIFAR10数据集的P=3,000个示例(b)和MNIST的P=500个示例(c)上进行训练。检查了理论在零温度下的两个定性预测:(1)当λ1增加时,泛化损失应该对任何N1都减小;(2)在大λ1极限下,学习曲线对N1的依赖性消失,是因为此时偏置是常数。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图2 深度网络(L>1)的实验。a,d,采用ReLU激活函数的接近无限宽度和小αα=0.1)情况下训练于CIFAR10和MNIST上的深度为L的LHL神经网络的测试损失,其中P=100(a对应CIFAR10结果,d对应MNIST结果)。有限宽度的网络只能在SL<1(阴影区域,即只能在MNIST任务和深度L<3。其中,可观测标量Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架。)时优于无限宽度的预测。b,e,可视化网络不断迭代后的无限宽度NNGP核在不同层的条目(b对应CIFAR10,e对应MNIST)。ReLU NNGP核在不断迭代后趋于零,导致了特征值几乎消失,使得SL最终总是大于1。c,f,基于P=1,000个示例训练的4HL网络的测试损失,不同正则化强度的情况(其中Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架=N=1000;c对应CIFAR10,f对应MNIST)。尽管增加最后一层高斯先验的大小仍然改善了所有N的泛化性能,但不再像1HL网络那样清晰,在大λL情况下,曲线随N变化不再是一个常数。


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架

图3. 随着深度L的增加,随机数据和序参量的普遍行为。a,不同1HL架构在完全随机任务上随α1变化的训练损失(即输入Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架,其中N0 = 5和标量输出y都是从均值为零、方差为单位的正态分布中采样独立同分布的随机变量)。其中,误差条在数据点内。目前本文理论只描述了训练误差恰好为零的过参数化极限,而无法解释这种普遍现象。b,采用ReLU激活函数在各向同性网络Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架情况下,对于不同的深度L对解Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架(在零温度极限下的鞍点方程的精确解)进行数值评估。随着L的增长(L≈30),对所有的α来说,序参量Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架迅速趋近于1。这表明在渐进区域中,DNNs也会在在P,N之后深度L趋于无穷时收敛到一个核心限制


编译|余孟君

神经网络的统计力学课程


Nat. Mach. Intell. 速递:超越无限宽度限制的贝叶斯深度神经网络的统计力学框架


课程详情:

黄海平:神经网络的统计力学课程 | 50人免费名额

推荐阅读

1. 深度神经网络的统计物理:寻找最优初始化理论2. PNAS速递:深度神经网络预测小尺度湍流动力学3. PNAS速递:基于相似加权交叉学习的深度神经网络和大脑学习4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!


点击“阅读原文”,加入课程


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy