Angle based dynamic learning rate for gradient descent
解决问题:本篇论文旨在解决分类任务中梯度下降方法中自适应学习率的问题,提出了一种新的自适应学习率的计算方法。相比之前的方法,本文提出的方法在角度历史方面更好地确定了更好的自适应学习率,从而在许多基准数据集上实现了更高的准确性。
关键思路:本文的关键思路是通过计算当前梯度和新梯度之间的角度来确定自适应学习率。与传统方法不同,本文的方法通过计算垂直于当前梯度方向的新梯度来确定角度,并在角度历史方面确定更好的自适应学习率。相较于现有的优化器,本文的方法在许多基准数据集上实现了更高的准确性。
其他亮点:本文在多个基准数据集上进行了实验,并证明了该方法的收敛性。作者还提供了开源代码,可以进一步研究该方法的实现和效果。本文的方法值得进一步研究和应用。
关于作者:本文的主要作者是Neel Mishra和Pawan Kumar。他们都来自印度的印度理工学院。在之前的研究中,Neel Mishra曾经参与开发了一种基于深度学习的自动文本摘要方法,Pawan Kumar则曾经参与研究了一种基于图像分割的深度学习方法。
相关研究:近期的相关研究包括:《A Survey on Optimization Methods for Deep Learning》(作者:Ioannis Panageas,机构:University of Edinburgh)、《AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients》(作者:Juntang Zhuang,机构:The Chinese University of Hong Kong)、《A Simple Framework for Contrastive Learning of Visual Representations》(作者:Ting Chen,机构:Google Research)。
论文摘要:在我们的研究中,我们提出了一种新颖而简单的方法,用于在分类任务的梯度下降方法中获得自适应学习率。我们不使用传统方法通过梯度项的衰减期望来选择自适应学习率,而是使用当前梯度和新梯度之间的夹角:这个新梯度是从当前梯度正交方向计算出来的,这进一步帮助我们根据角度历史确定更好的自适应学习率,从而相对于现有的最先进的优化器,导致了更好的准确性。在许多基准数据集上进行测试,其中包括ResNet、DenseNet、EfficientNet和VGG等著名的图像分类架构,我们发现我们的方法在大多数数据集中都能实现最高的准确性。此外,我们证明了我们的方法是收敛的。