关键词
Neural Architecture Search
Bayesian Optimization
导 读
结合零成本代理的神经网络结构搜索算法
AAAI 的英文全称是 Association for the Advance of Artificial Intelligence——美国人工智能协会。该协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名中,AAAI 被列为人工智能领域的 A 类顶级会议。本次AAAI 2023一共收到8777篇论文提交,最终录取的数量为1721篇,接收率为19.6%。
神经网络结构搜索是指通过自动化方式搜索并选择最优神经网络结构的过程。传统基于代理模型的搜索算法需要大量的模型效果反馈,而将模型训练至收敛需要大量的时间,导致这类算法在现实场景中难以部署。因此,为了加速这类算法的运行效率,本工作提出一种零成本代理的贝叶斯优化搜索算法,通过泛化能力指标与动态影响融合将零成本代理有效融入贝叶斯优化之中,从而显著提升基于代理模型方法的搜索效率。
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/26169/25941
01
引 言
由于设计神经网络需要耗费大量的人力成本,神经网络结构搜索(Neural Architecture Search, NAS)已成为深度学习领域的研究热点。传统的基于代理模型的搜索方法由于模型训练高昂的代价,执行需要大量的时间,因此难以在现实场景中应用。另一方面,部分前沿的工作提出零成本代理,即通过一系列可快速计算的指标,在神经网络初始化时估计网络的最终效果。这一类方法虽然执行效率高,但搜索得到的网络结构效果往往不尽人意。考虑到两类方法的优点,是否能够设计一种神经网络结构搜索算法结合两者的优势,也即在尽可能少的时间内找到效果良好的网络结构?
然而,利用零成本代理并不容易。图1给出了指标jacob_cov在两个不同搜索任务上与网络结构真实准确率之间的相关性。可以观察到,尽管在左图中指标具有较高的Spearman系数,但在右图任务中,指标与真实评价指标之间呈负相关。同时,过去的一些方法使用某些指标代替真实指标对优化算法进行热启动。如果出现图1右图中的现象,则会对优化算法产生严重的负面影响。此外,将零成本代理与贝叶斯优化还需要考虑到两者的特性,即零成本代理是一个确定性的指标,而贝叶斯优化随着时间迭代评价越来越准确。因此,如何将两者的优势结合是一个值得深入研究的问题。
本工作提出ProxyBO,一种结合零成本代理的贝叶斯优化搜索算法,通过泛化能力指标与动态影响融合将零成本代理有效融入贝叶斯优化之中,从而提升基于代理模型方法的搜索效率。在4个公开基准上,ProxyBO效果优于15个对比方案,对比REA与Warm-up BRP获得了5.41与3.86倍的加速比。
图1 零成本代理jacob_cov在两个任务中呈现截然不同的相关性
02
零 成 本 代 理
区别于低成本代理,零成本代理是一类可以在模型初始化时计算的指标。这些指标一般情况下与模型最终的收敛效果呈一定的正相关性。在本工作中,我们使用snip,synflow以及jacob_cov三个指标,其中snip与synflow的计算方式如下:
论文中使用这三个指标主要有两个考量:1)这三个指标都能够在神经网络初始化时通过使用一个batch的数据快速计算得到;2)这些指标衡量了神经网络的不同特点,其中jacob_cov强调了网络的激活特性,而snip和synflow强调网络权重的显著性。
03
ProxyBO 算 法 设 计
为了解决背景中提到的挑战,ProxyBO的设计中需要考虑两个因素:
1)如何在没有先验知识的情况下评价各代理以及贝叶斯优化的泛化能力;
2)如何在搜索过程中将贝叶斯优化与零成本代理进行有效融合。
3-01
泛化能力指标
网络结构搜索的核心目标是找到一个最优的网络结构,而非明确估计网络结构的效果。因此,评价零成本代理或贝叶斯优化的能力的一种方式可以是观察它们是否能正确地对一系列网络结构进行效果排序。ProxyBO通过使用Kendall-tau相关系数,基于已有观察集合D,评价零成本代理与贝叶斯优化的泛化能力。
具体地,针对零成本代理,ProxyBO定义其泛化能力为:
其中tau_Pi为第i个零成本代理指标值与真实指标的Kendall-tau系数。为了保证尺度一致,泛化能力G的值域为[0, 1]。
针对贝叶斯优化的代理模型,ProxyBO定义其泛化能力为:
其中tau_M为代理模型的预测均值输出与真实指标之间的Kendall-tau系数。值得注意的是,代理模型由于直接在D上训练得到,计算上述指标有数据泄露导致泛化能力虚高的情况。因此,ProxyBO计算代理模型泛化能力时采用K折交叉验证的方式,使用K-1折数据训练代理模型后给出剩下1折的预测结果。
3-02
动态影响融合
将零成本代理与贝叶斯优化融合时,需要考虑到两点:1)零成本代理值与贝叶斯优化预测的尺度与分布差异极大,因此需要进行处理才能进行融合;2)贝叶斯优化随着观察数量变多,其效果会逐渐提升,因此搜索过程中应该平稳地从零成本代理向贝叶斯优化过渡。
针对第一个问题,ProxyBO选择将候网络结构的排名值进行加权累加,以消除输出之间尺度不均的问题。针对一个候选网络结构,ProxyBO对合并排名计算如下:
其中R_M(x_j)表示贝叶斯优化代理模型在候选网络结构集中对候选结构Xj的预测排名,I(M; D)表示其融合权重。针对第二个问题,ProxyBO定义融合权重如下:
融合权重为泛化能力的带温度Softmax值,其中的温度随着时间递减。每一轮迭代中,ProxyBO推荐合并排名值最低的候选网络结构进行验证。
3-03
算法概述
以下伪代码展示了ProxyBO每一轮网络结构的推荐流程:
04
实 验
实验中涉及的15种基线方案可分为5类:
1)5种常规的基于代理模型的算法,如强化学习算法REINFORCE,遗传算法REA等;
2)2种多精度优化算法BOHB与MFES-HB;
3)2种基于权重共享的方法ENAS与DARTS-PT;
4)3种朴素零成本代理snip,synflow与jacob_cov;
5)3种将零成本代理与优化算法结合的算法Warm-BRP,A-REA与OMNI。实验在公开的四个基准上进行,分别是NAS-Bench-101, 201, 301与 ASR。实验汇报最优观测到的测试集误差(%)。
4-01
优化效果对比
下表展示了各方案的最优观测结果。ProxyBO在各个场景中取得了相对显著的提升。具体地,ProxyBO在各任务中降低了17%-38%的遗憾(Regret)值。
表 1 公开基准上各方案的均值±方差结果
4-02
优化效率对比
下图展示各基于代理模型的方法在各任务中的优化曲线。可以观察到ProxyBO由于有效利用了零成本代理,在早期相比对比方案有显著的加速。具体地,ProxyBO相对于REA与BRP获得了3.92-5.41倍与2.29-3.86倍的加速比。
图 2 公开基准上各方案的优化曲线。阴影部分为方差
4-03
零成本代理利用能力分析
下表展示了各类结合零成本代理的优化算法在使用不同零成本代理的效果。从表中可观察到,snip这一指标在NAS-Bench-101中对优化产生负效果,而对比方案无法识别这一点从而严重影响优化性能。ProxyBO通过动态影响融合快速筛除了该代理,从而降低了对搜索过程的影响。
表 2 结合零成本代理的优化算法使用不同零成本代理的效果
总 结
本文提出了ProxyBO,一种结合零成本代理的贝叶斯优化算法。算法通过泛化能力指标与动态影响融合将零成本代理与贝叶斯优化的优势进行结合,从而加速神经网络结构搜索。在4个公开基准上,ProxyBO与15个搜索算法的对比中体现优势,并且相比领先算法获得显著的搜索效率提升。
详细了解本工作,请访问下方链接地址:
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/26169/25941
References:
[1] Lee, N.; Ajanthan, T.; and Torr, P. 2018. Snip: Single-shot Network Pruning Based on Connection Sensitivity. In International Conference on Learning Representations.
[2] Tanaka, H.; Kunin, D.; Yamins, D. L.; and Ganguli, S. 2020. Pruning neural networks without any data by iteratively conserving synaptic flow. Advances in Neural Information Processing Systems, 33.
[3] Mellor, J.; Turner, J.; Storkey, A.; and Crowley, E. J. 2021. Neural architecture search without training. In International Conference on Machine Learning, 7588–7598. PMLR.
[4] Hutter, F.; Hoos, H. H.; and Leyton-Brown, K. 2011. Sequential model-based optimization for general algorithm configuration. In International Conference on Learning and Intelligent Optimization, 507–523. Springer.
[5] Abdelfattah, M. S.; Mehrotra, A.; Dudziak, Ł.; and Lane, N. D. 2021. Zero-Cost Proxies for Lightweight NAS. In International Conference on Learning Representations.
END
欢迎关注本公众号,帮助您更好地了解北京大学数据与智能实验室(PKU-DAIR),第一时间了解PKU-DAIR实验室的最新成果!
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文100余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。