GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

443次阅读
没有评论

点击下方卡片,关注AI视界引擎」公众号

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

随着预训练模型的不断增大,完全的微调以及为各种下游任务存储所有参数变得昂贵且不切实际。

在这篇论文中,作者提出了一种新的参数高效的微调方法,即基于梯度的参数选择(GPS),证明只对预训练模型的少量选择性参数进行微调,同时保持其余模型不变,可以产生与全模型微调方法相似或更好的性能。与现有的流行和最先进的参数高效的微调方法不同,作者的方法在训练和推理阶段都不引入任何额外的参数和计算成本。另一个优势是模型无关和非破坏性,这消除了针对特定模型设计的需求。

与全微调相比,GPS在平均24个图像分类任务上,仅调整预训练模型的0.36%参数(88.45% vs 88.82%,FGVC)时,实现了3.33%的准确性改进(91.78% vs 88.45%,FGVC);在医学图像分割任务上,mDice和mIoU分别实现了17%和16.8%的显著改进。此外,GPS与现有的PEFT方法相比,达到了最先进性能。

1 Introduction

预训练和微调流水线已成为将在大规模数据上预训练的大型模型适应到下游任务所需较少训练样本的通用范式。然而,微调模型的所有参数是内存密集和数据低效的,对于大规模模型来说,给多个下游任务进行微调的成本和可行性很高。为了解决这个问题,提出了参数高效的微调(PEFT)方法,其目的是只调整最小数量的参数以适应下游任务,同时将大部分参数冻结。

除了缓解内存问题外,PEFT的另一个好处是调整较小的参数集可以减少优化复杂度,并在适应具有有限标签数据的大规模预训练模型到下游任务时缓解过拟合问题,从而实现与全微调 comparable 或甚至 superior 的性能。受到自然语言处理(NLP)中 PEFT 成功的启发,视觉任务中也引入了类似的方法,例如 Adapter 和 Visual Prompt Tuning (VPT) ,它们分别将可学习的额外参数引入预训练模型的 Backbone 和输入空间。此外,SSF,另一种代表性方法,使用额外的可学习层将预训练模型中各层的特征进行转换。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

然而,这些方法在预训练模型中引入了额外的参数,破坏了其原始架构,导致在训练和/或推理阶段增加了计算成本。此外,这些方法缺乏对各种模型架构的通用性。具体来说,不同的模型配备了不同的组件(层),如 MLPs、激活函数和自注意力层。这些方法需要确定在不同的层之间插入额外参数的最优位置;此外,某些基于 Transformer 的技术不能直接应用于卷积方法,如 VPT。因此,这些方法与多种架构的兼容性有限。

为了解决上述问题,作者提出了一种非破坏性网络架构和模型无关的参数高效微调(PEFT)方法,该方法在训练和测试阶段不引入任何额外的参数,并为各种架构提供统一的解决方案。作者从预训练模型中选择一小部分关键参数,并仅对这些参数进行下游任务的微调。

为了选择这些关键参数,作者提出了一种细粒度的基于梯度参数选择(GPS)方法。对于网络中的每个神经元,作者选择输入连接(权重或参数)中具有最高梯度值的K个顶点,从而使原始模型参数的小部分得到选择。

这样的设计提供了五个好处:

  1. 预训练模型可以有效地处理下游任务,因为梯度方向表示最快的损失函数变化和最高的变化率,有助于在模型微调过程中进行高效的梯度下降;作者还为GPS提供了稀疏正则化等价形式,表示出比全微调更好的泛化能力;
  2. 网络中的每个神经元都有潜力通过微调选定的输入连接来调整其激活状态。因此,预训练模型在修改不同粒度的特征以适应各种下游任务方面表现出灵活性。例如,当将一个在ImageNet上预训练的模型适应到CIFAR-100时,需要细化高级特征;而对于ImageNet-Sketch的适应,则需要进行更详细的特征微调;
  3. 作者的方法避免了引入额外的参数和计算成本,并保持模型结构的完整性;
  4. 选择过程使得其可以在各种模型之间应用,采用基于神经元而不是基于层的方法,从而消除了各种模型中不同层需要不同设计的需求;
  5. 与其他使用预定义和一致策略处理不同任务的方法不同,作者的方法根据提出的梯度策略适应每个任务,从而更好地适应不同下游任务的特定领域语义。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

请参见表1中作者方法与其他方法之间的差异。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

作者在4种不同的模型架构上评估了作者的方法在总共27个视觉任务(包括图像分类和语义分割)上的性能。作者的GPS在与其他PEFT方法相比取得了最先进的性能,并且具有良好的性能与可训练参数数量之间的平衡,如图2所示。与全微调相比,GPS在平均24个任务上仅调整预训练模型的0.36%参数时,实现了3.33%(FGVC)和9.61%(VTAB)的准确性改进;它还在医学图像分割任务上分别实现了17%和16.8%的显著改进。

此外,作者验证了作者的方法在不同网络架构(如Transformer和卷积神经网络)上的有效性,并将其与各种参数选择方法进行了比较,并展示了其优越性。GPS为PEFT提供了一种新范式,并激发了该领域更深入的洞察。

2 Related work

视觉参数高效微调

通常,PEFT可以分为两类主要方法:添加基础方法引入预训练 Backbone 的额外参数。残差路径方法采用残差路径并学习下行和上行投影,其中非线性激活采用。其他提出超网络来生成模型权重或将密集加权矩阵分解为低秩矩阵。提示方法将输入与上下文相乘。VPT 将可学习的提示附加到输入标记。SSF通过缩放和移动特征在层之间实现 promising 结果。基于选择的方法选择一组参数进行微调,例如只微调偏置,最后K层。虽然传统上认为与添加基础方法相比,作者的方法适应每个任务选择参数的效率较差,但令人惊讶的是,作者得到了非常强的结果。

子网络训练

剪枝技术揭示了子网络的重要性。彩票票假设表述了子网络可以达到原始模型的准确性。子网络的微调已经得到了广泛研究。SpotTune设计了一个策略网络来为子网络做出路由决策。Child-tuning迭代地通过在反向传播过程中屏蔽一些梯度来更新子网络的一部分参数。然而,这些方法与PEFT设置不匹配。在本文中,作者固定一小部分参数,只对它们进行微调以适应下游任务,从而实现PEFT。

3 Approach

Overview

与目前流行的在预训练模型上引入额外参数以适应下游任务的方法不同,作者的方法只选择预训练模型中一小部分参数,并在微调阶段只更新这些参数。

具体而言,作者的方法有两个阶段:参数选择和遮挡微调。对于每个下游任务,作者首先使用基于梯度的方法从原始预训练模型中选择一小部分重要参数(任务特定参数)。然后,作者为任务微调预训练模型,同时保持所有其他不重要参数冻结,并仅使用稀疏二进制掩码更新选定参数,使不重要参数的梯度为零(参见图3)。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Gradient-based parameter selection

相关研究已经表明,预训练 Backbone 在不同的参数位置表现出不同的特征模式,并且相同的位置对微调各种任务做出不同的贡献。因此,作者提出存在一个微调预训练模型以适应下游任务的优化子集参数。这个子集对于微调任务是必需的和必要的,并且不同的任务需要不同的子集。

形式上,对于一个下游任务,具有数据集和预训练模型,作者旨在找到一个参数子集,即)。

作者选择参数遵循两个原则:

  1. 对于下游任务重要;
  2. 在整个网络中分布。

重要性的识别

作者将通过选择具有最高梯度值的参数来确定预训练模型中特定任务的参数的重要性。梯度值是通过计算损失函数与其参数的梯度来获得的。背后的直觉是,具有最大梯度值的参数在梯度方向上的损失函数变化最快,具有最大的变化率,这有助于在微调过程中进行高效的梯度下降。

具体而言,参数的梯度是通过计算损失函数与其参数的梯度来获得的。

其中表示损失函数。在微调预训练模型以适应下游任务时,通常需要一个新的分类头(例如MLP)进行随机初始化。为了避免使用交叉熵损失函数计算梯度时受到这些随机初始化参数的不利影响,作者在参数选择的计算过程中使用监督对比损失(SCL)作为损失函数,因为它不需要涉及头(作者仍然在微调阶段使用交叉熵损失)。SCL是一种对比损失(CL)的变体,旨在将同一图像的不同增强样本在嵌入空间中更靠近。

相比之下,SCL尝试将同一类的样本聚在一起,这恰好与下游分类任务的作者的目标一致。具体而言,给定一个任务,其数据集为,SCL的计算方式如下:

其中表示样本的标签,表示正样本的标签,表示负样本的标签。

其中表示中的第个样本;的子集,其中所有样本与具有相同的类别;是从预训练编码器中提取的特征,是一个标量温度参数。

相当于稀疏正则化

在上述中,作者隐式地假设的顺序与的顺序相同,这意味着选择梯度范数最大的前个参数与选择微调变化的前个是相同的。因此,GPS捕获了下游任务的顶部个重要参数。优化目标可以重写为:

其中是惩罚因子,是平滑参数,是正则化参数。

其中范数,是微调后的模型。通过Lagrange对偶,解决上述问题等价于解决以下问题:

其中适当的。因此,GPS可以被视为稀疏正则化微调,这可能导致更好的泛化。Fu等人[18]表明,公式(4)的泛化边界比全微调的纯优化更小,从而实现更好的性能。

分布在整个网络

参数选择的简单想法是选择整个网络中梯度值最高的参数的一定百分比。作者的实验表明,采用这种想法,选定的参数大多数位于网络的顶部层(见补充材料详细说明),这与[34, 35]中报告的发现一致。然而,仅微调这些顶部层参数是不够的,以减轻预训练模型本身的归纳偏差的影响,特别是在上游和下游任务之间存在显著的数据分布差异时,需要从较浅的层微调更详细的特征。

受各种研究表明神经网络不同组件发挥的不同作用的启发,作者提出当微调预训练模型以适应下游任务时,调整的参数应分布在整个网络中。这种策略的原因在于模型将不同粒度存储的参数中的信息适应下游任务。

因此,作者的策略是对于网络中的每个神经元,作者选择该神经元所有输入连接(权重)中的前K个(至少一个)连接(权重),如图3所示。通过这样做,网络中的每个神经元都有潜力调整其激活状态,而不仅仅是调整顶部层的高层信息。换句话说,作者的方法微调网络中每个神经元中存储的详细信息,更好地适应下游任务在微调阶段。作者的探索性实验进一步证实了这一点,如表6(a)所示。

将上述两点结合,作者首先计算特定任务损失函数与模型中所有权重之梯度。然后对于网络中的每个神经元,作者选择输入连接中梯度值(梯度模数)最大的前K个连接。这样做不仅可以确保选择下游任务的重要参数,并允许模型调整所有神经元的激活状态以更好地适应下游任务,还可以选择具有各种模型架构的简单易用性,避免任何特定模型设计。作者的实验也证明了作者的方法在各种架构上的有效性,如表2和表4所示。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Masked fine-tuning

在针对特定任务进行参数选择后,作者在任务上微调预训练模型。在微调过程中,作者只更新所选参数,同时保持预训练模型中的其余参数不变。由于所选参数分布在网络中所有神经元的每个层中,因此只有网络中特定权重矩阵中的少量参数被更新,从而使更新后的矩阵变得稀疏因此,作者使用掩码来帮助稀疏训练。具体而言,对于网络中第个权重矩阵,作者构建一个大小与该矩阵相同的二进制掩码

对于权重矩阵中的每个元素,如果对应的参数在中选择了,那么该元素的值设为1,否则设为0。然后,通过使用二进制掩码更新权重矩阵,具体更新方式如下:

其中,表示网络中第个权重矩阵,表示对应的二进制掩码,分别表示网络中第个权重矩阵的输入维数和输出维数。

在上述计算中,表示交叉熵损失函数与的梯度。因此,未选择的参数的梯度被设置为零并从更新中排除,而只有作者选择的少量参数在微调下游任务时进行更新。请参见图3以了解作者的方法。

4 Experiments

作者在各种下游任务上评估GPS,包括使用不同架构的图像分类任务和语义分割任务。首先,作者简要介绍实验设置,包括数据集、 Backbone 网络和 Baseline 。然后,作者证明了GPS的有效性和普遍性。此外,作者系统地研究了不同的选择方案,并进行了全面的消融实验。

Experimental settings

数据集

根据VPT和SSF,作者将实验数据集分为三组:

  1. _FGVC_:细粒度视觉分类(FGVC)基准包括5个下游任务,包括CUB-200-2011,NABirds,Oxford Flowers,Stanford Dogs和Stanford Cars。
  2. _VTAB-1k_:视觉任务适应基准(VTAB)包含19个视觉分类任务,分为三组:自然(Natural)、专业(Specialized)和结构化(Structured)。
  3. _CIFAR-100_和_ImageNet-1k_:广泛用于通用图像分类任务。

Performance on image classification

作者通过在3个基准(总共26个数据集)上与多个 Baseline 进行比较,对GPS方法的有效性进行了全面评估。除了常见的基准(FGVC和VTAB-1k),作者还将在不同的架构上比较作者的方法。通过Top-1准确率(%)和微调参数数量来评估性能和有效性。

图像分类性能

如表2和表3所示,作者的GPS在FGVC和VTAB基准测试上明显优于所有其他微调方法,充分证明了作者的参数选择方法是一种简单而有效的模型调优方式。在FGVC上,GPS在所有5个任务上都优于所有其他微调方法,包括全微调。与先前的SOAT方法SSF[56]和全微调相比,GPS的平均准确性提高了1.02%和3.24%,而仅使用0.77%的可训练参数。在VTAB上,GPS也明显优于其他微调方法。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

具体而言,与先前的SOAT方法SPT-LoRA和全微调相比,GPS在19个VTAB任务上的平均准确性提高了1.11%和9.61%。GPS比之前的SOTA提高了1.75%,0.23%和0.63%在自然、专业和结构化子集上,分别对应于VPT-Deep、SSF和SPT-LoRA。

同时,GPS使用的可训练参数比VPT-Deep、SSF和SPT-LoRA少(0.25% vs. 0.70%,0.28%和0.63%),这进一步说明了作者的方法的高效性。对于大多数任务,作者只选择每个神经元的Top 1输入连接;然而,对于更具有挑战性的任务,选择多个连接(请参见补充材料详细说明)。作者GPS中的可学习参数比例可以通过调整选择的连接数量进行显式控制,从而在任务中实现参数数量和性能之间的平衡。

不同架构上的泛化能力

由于作者的方法只从预训练模型中选择一小部分参数进行微调,因此它是自然对模型无关的。作者将GPS与其他代表性的方法进行比较,包括ViT-B/16(Tab. 2),Swin-B和ConvNeXt-B架构在FGVC数据集(Tab. 4),CIFAR-100和ImageNet-1k(请参见补充材料中的完整结果)。在这三种模型架构中,GPS始终优于所有其他 Baseline ,证明了其对模型的独立性优势。Swin和Convnext的设计比ViT更复杂,使其在预训练过程中能够获得全面和高质量的特征。

因此,即使是最简单的线性检测方法,在它们这两个架构上也能获得令人称赞的结果,减少了PEFT方法的有效性,并导致先前的SOTA SSF方法在全面微调方面表现不佳。然而,在这种情况下,作者的GPS仍然在全面微调方面取得了0.12%和0.28%的领先优势,进一步证明了作者的设计和探索模型 Backbone 潜力的能力。

计算成本

如图4所示,作者将GPS与其他微调方法的计算成本进行了比较,以证明作者方法的有效性。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

遵循SSF的方法,作者重新实现了VPT,分别针对浅层和深层版本使用200和50个提示。在训练和推理阶段都使用了32个批处理大小。为了进行公平的比较,在所有实验中,作者没有使用混合精度训练,如SSF所使用的那样。所有指标都在单个NVIDIA A100 GPU上测量。

在训练阶段,GPS的耗时和内存消耗都比VPT和SSF少。与全微调相比,GPS具有更低的时间开销和相似的内存开销,但性能提高了很大幅度。由于GPS是基于选择的,它不会引入任何额外的参数,因此在推理阶段,不需要进行任何重参化操作,从而可以实现与全微调相同的最小时间和内存开销,这比基于添加的Adapter和VPT要低得多。

Semantic segmentation

除了视觉分类任务,作者还探索了作者的方法在语义分割任务上的应用。Segment Anything Model (SAM)  是一个强大的分割基础模型,它在大规模数据集上进行预训练,具有强大的泛化能力。然而,一些研究,例如[6],已经报告了SAM在医学分割任务上的表现不佳,如扁平疣分割。

为了解决这个问题,他们提出了使用 Adapter 有效地微调 SAM 以适应下游医学分割任务。遵循他们的实验设置,作者将作者的方法应用于 SAM 并与其他 PEFT 方法进行了比较分析。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

作者的 GPS 获得了非凡的结果,如表5所示,并如图5(请参见补充材料以获得更多案例可视化)所示。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Impacts of different selection schemes

不同的选择 Level

作者的GPS在神经元 Level 选择可训练参数,即针对每个神经元选择前k个输入连接。作者还研究了不同 Level 的参数选择方法。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

如表6(a)所示,_Net_和_Layer_分别表示根据整个网络和每个层选择一定比例的最高梯度参数。为了进行公平的比较,作者在这些 Level 上保持相同的参数选择数量。作者可以看到,选择粒度的越细,性能越好。例如,CUB上的准确率在网络到层的选择 Level 变化时增加了0.44%和0.77%,而在层到神经元的选择 Level 变化时增加了0.56%和0.78%。

不同的选择标准

作者进一步研究基于梯度的选择方法的有效性,通过比较不同的选择标准。如表6(b)所示,Net Random和Neuron Random分别表示随机选择每个神经元的前k个输入连接并基于整个网络选择相同数量的参数,而Magnitude表示选择每个神经元权重最大的前k个输入连接。作者可以看到,参数选择的随机性增加会导致性能下降(Net Random < Neuron Random)。Magnitude的结果与Neuron Random相似,说明神经元 Level 的选择至关重要。

不同的选择位置

为了研究网络中不同层选择参数的影响,作者对ViT-B/16模型在CUB数据集上的微调进行了实验,并评估了将作者的GPS方法应用于整个网络中选择参数,但除了特定transformer块或之前几层外,选择参数的准确性下降。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

如图6(a)所示,当作者不选择特定块的参数时,最大准确率下降来自浅层(块2和块4)。这一发现支持作者的GPS方法,该方法选择整个网络的参数,而不仅仅是最后几层。当作者不选择第一特定数量的块的参数时,可以观察到准确性下降随着移除的块数增加(图6(b))。

Ablation study

无头对比损失

为了获得更准确的参数选择梯度,作者借鉴了表示学习预训练方法,采用了有监督对比损失来计算梯度(不需要分类头的随机初始化)。如表6(c)所示,当使用交叉熵损失(带头)计算梯度时,在FGVC上的平均准确率降低了0.67%,这说明了获得准确梯度的重要性。

选择的连接数量

如图6(c)所示,作者选择每个神经元的前K个可训练输入连接作为可训练参数,范围从1到15,并在5个任务上进行实验。作者可以观察到,可训练参数的数量并不一定导致更好的性能,但每个数据集都有一个性能峰值。此外,在具有足够训练数据的数据集中,可训练参数的增加可以极大地提高准确率。作者的GPS可以轻松控制可训练参数的数量并在每个数据集上实现最佳结果。

对种子的鲁棒性

像VPT这样的基于添加的微调方法对额外参数的初始化和随机种子敏感,而选择性方法则不是。表6中的所有结果都是在FGVC数据集上的平均准确率(仅在此显示GPS的std,请参见补充材料详细说明)。结果表明,随机种子对作者方法的影响很小。

5 Conclusion

在本文中,作者提出了一个新的PEFT范式,即基于梯度的参数选择(GPS)。作者的方法不引入任何额外的参数,只微调预训练模型的一小部分参数以适应下游任务,从而实现对不同模型的强健泛化,并适应性地为每个任务选择一小部分参数。值得一提的是,GPS在各种任务(包括图像分类和语义分割)上相对于全微调方法取得了显著的改进。GPS在与其他PEFT方法相比也达到了SOTA性能。

6 Details of experiments

Baseline description

视觉Transformer(ViT)

作为一种基于 Transformer 的视觉模型,ViT 已在各种视觉任务中广泛采用。本文中的大多数实验都是在预训练的ViT架构上进行的。给定一个输入图像,在将其输入到Transformer之前,图像被分成个patch,并添加一个[CLS]标记用于分类目的,结果得到最终输入,其中是特征的维度。Transformer通常由多个块组成,每个块包含一个多头自注意力层(MHA)和两个MLP层。

Adapter

在[34]中,Adapter方法提出了一种将多个可训练层(称为Adapter)插入预训练Transformer编码器中的方法。在微调阶段,只有Adapter被更新。这些层可以在Multi-head Attention层或MLP层之后插入。Adapter包括两个投影矩阵,一个用于降维,另一个用于将特征重构到原始维度。

具体而言,给定输入,Adapter的输出为,其中是常数。

其中(其中),并且是一个非线性激活函数。

视觉提示调优(VPT)引入了可学习的参数(即提示)到输入空间。当微调下游任务时, Backbone 网络保持不变,只调整这些提示。形式上,给定的输入与引入的个提示相 ConCat 。最终的组合输入为

其中将作为输入传递给Transformer。VPT有两种版本,即VPT-shallow和VPT-deep。前者仅将可学习的提示集成到第一层输入空间,而后者将它们集成到每个层输入空间。

SSF试图通过添加线性变换层来在预训练模型的层之间缩放和移动特征。在微调下游任务时,只有线性变换层被更新, Backbone 网络保持不变。变换层由两部分组成,缩放因子和移位因子,用于特征变换。具体而言,给定输入,输出通过以下方式计算:

其中是点积。

The number of parameters on different tasks

对于网络中的每个神经元,作者的GPS方法在输入连接(权重或参数)中选择具有最高梯度值的至少一个连接,如图7(a)所示。

对于需要更多可学习参数以更好地适应数据的下游任务,例如与上游数据集(如NABirds)的数据分布不相似或数据量更大的任务(如CIFAR-100),作者的方法可以通过引入更多的可学习参数轻松扩展。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

具体而言,对于每个神经元,作者可以选择多个具有最高梯度值的输入连接,而不是限制为仅一个,如图7(b)所示。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

表7显示了作者论文中选择的参数数量详细统计。对于本文中的大多数任务,作者只选择一个连接。作者还探索了连接数与可学习参数数之间的关系。如图8所示,随着每个神经元输入连接中最高梯度值选择的连接数增加,可学习参数数呈线性增长。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Parameters distribution of Net selection

相比之下,一种简单的方法是选择特定任务的参数,即从整个网络中选择具有最高梯度的一定百分比的参数[28]。然而,如图9(a)至图9(e)所示,大多数选定参数位于网络的顶部层,特别是块12和块11。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

因此,网络主要专注于微调抽象特征,而缺乏从较浅层微调详细信息的能力。作者的方法通过仔细选择每个神经元的输入连接,使作者的选定参数在整个网络上均匀分布,如图9(f)所示。

7 Additional experiments

Robustness and OOD datasets

除了标准分类任务外,作者还分析了GPS的鲁棒性和泛化能力。基于Imagenet-A,ImageNet-R和ImageNet-C数据集,作者首先在ImageNet-1K上微调模型,然后在三个数据集上测试微调后的模型。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

结果如表8所示。GPS不仅在标准ImageNet-1K分类任务上实现了最佳性能,而且在鲁棒性和泛化测试中也取得了良好的成绩。其中,GPS在ImageNet-A和ImageNet-R上的结果最好,比先前的最优SSF提高了0.23%,反映了作者方法的强大稳定性和泛化能力。在ImageNet-C上,GPS的表现略差,落后于SSF,但仍高于基于添加的Adapter和VPT。这个结果表明,作者的方法可以快速适应下游任务的数据分布,但在抗干扰方面需要改进。

More experiments on different architecture

正如本文主内容所述,作者的方法是模型无关的,作者进一步在ViT-B/16,Swin-B和ConvNeXt-B架构在ImageNet-1k和CIFAR-100数据集上与其它微调方法进行了比较。

像FGVC和VTAB一样,GPS和高效的微调方法在CIFAR-100上的性能难以与全量微调相竞争,如表10所示。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

这可能是因为CIFAR-100包含更多的训练数据,允许整个模型的所有参数得到充分训练,这严重降低了高效微调方法的优势。然而,GPS仍然优于所有先前的参数高效微调方法(Bias,Adapter,VPT和SSF),并将与全量微调的差距缩小到所有架构上的不到0.5%,这进一步证明了作者的方法对不同模型的适应性。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

与CIFAR-100的结果类似,ImageNet-1K包含更多的训练数据,使得参数高效的微调算法难以达到与全量微调相同的准确率,如图11所示。然而,GPS在ViT结构上仍然比全量微调提高了0.33%,并在Swin和ConvNeXt结构上分别超过了先前的最佳SOTA方法SSF,这进一步证明了GPS对不同模型结构的适应性。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

正如本文主内容所述,作者的方法在FGVC基准测试上取得了最佳结果。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

表9显示了表4中所有结果的完整数据。在这三种模型架构中,GPS始终优于所有其他 Baseline ,证明了其对模型的独立性优势。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Data-efficient tuning

近年来,在大规模基础模型微调方面的进步已经显示出在各种任务上达到最先进性能的相当大的潜力。然而,为了达到高准确率,这些方法通常需要大量的训练数据,这可能需要花费时间和金钱来获取。

在这里,作者证明作者的方法是数据高效的,也就是说,在这个少样本设置下,作者的方法只需要很少的训练数据就可以进行微调,从而实现其他方法无法达到的出色结果。

具体来说,作者将ViT-B/16模型通过在ImageNet数据集中选择每个类别的前k个样本来形成少样本训练集进行微调。k的值和预测结果的准确性如图10所示,这表明了作者的方法在k=1等极端情况下具有特别出色的数据效率。

Random seed for impacts of different selection schemes and ablations

作者进行了三次随机种子实验来调查作者方法的鲁棒性。如表12所示,作者的参数选择方法在随机性较小的方法中显著优于其他方法。表12是作者论文主体中表6的补充。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

8 Visualizations

Semantic segmentation

正如本文主内容所述,作者的方法在语义分割领域取得了非常有前途的结果。作者在预训练的强分割模型(SAM)上应用作者的方法,并在医学分割任务上进行微调,即扁平疣分割。在这里,作者提供了更多案例的可视化图像,如图11所示,可以直接显示作者的方法的有效性。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Distribution of selected parameters across various tasks

当作者从原始模型中选择不同子集的参数以适应不同的下游任务时,一个正常的问题是,这些参数在不同任务上的分布是否不同。作者在ViT-B/16上进行实验,该模型有来自VTAB的6个下游任务(两个来自自然,两个来自专业,另外两个来自结构化)。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

如图12所示,选择的参数倾向于2/3共享参数和1/3任务特定参数,尽管下游任务的数据显示存在差异。这是由于作者的选择方案,该方案使参数在整个网络上均匀分布,因此浅层参数倾向于共享参数,这与多任务学习领域中的类似发现一致。

Feature distribution

在NABirds数据集上,作者使用t-SNE来可视化不同微调方法的特征分布。所有比较方法的结果都是基于在ImageNet-21k上预训练的ViT-B/16得到的。可视化结果如图13所示。使用作者GPS的特征聚类结果优于使用线性检测、SSF和全量微调的方法。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

9 Details of the evaluation datasets

本文使用的所有数据集的统计信息如报表13所示。

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

Image classification

Fine-Grained Visual Classification (FGVC) 基准测试包括5个下游任务,分别是CUB-200-2011,NABirds,Oxford Flowers,Stanford Dogs和Stanford Cars。每个任务都包含超过100个类别和几千张图像。如果一个数据集包含公共分割,作者直接使用该数据集的分割;否则,作者遵循[41]中提供的分割。

Visual Task Adaptation Benchmark 包含19个视觉分类任务,这些任务被分为3组:

  1. 自然任务,由普通相机捕获的自然图像;
  2. 专用任务,由专门的设备(如医疗相机或卫星传感器)捕获的图像;
  3. 结构化任务,由模拟环境合成的大量图像,需要像目标计数和深度估计这样的几何理解。每个任务只包含1000个训练示例,而测试图像(平均超过20000张)的数量则很大。

CIFAR-100是广泛使用的通用图像分类任务。它包含50,000个训练图像和10,000个测试图像,共100个类别。

ImageNet-1K是ImageNet中最常用的子集,用于物体分类,包含1000个类别,训练集有1,281,167张图像,验证集有50,000张图像,测试集有100,000张图像。

Semantic segmentation

作者选择kvasir-SEG进行扁平疣分割任务。作者遵循Medico自动扁平疣分割- 媒体eval 2020的设置,训练验证比例为880:120。

Robustness and OOD

ImageNet-A包含200个类别,这些类别是从ImageNet-1K(包含1000个类别)中选择的。所有样本都是真实的现实世界对抗样本,这些样本导致ResNet模型产生了错误的分类。

ImageNet-R包含艺术、涂鸦、雕塑、纹身、玩具、卡通、绘画、刺绣、deviantart、图形、图案、塑料物体、折纸、填充物体、素描和游戏渲染等来自ImageNet类别的图像。

ImageNet-C是一个开源的算法生成的图像损坏集合,这些损坏包括模糊和噪声等,这些损坏已经被应用到ImageNet测试集上。

10 Disscussion

为什么是子网络?在神经网络剪枝领域,研究行人致力于识别网络参数的重要性并消除一些不必要的参数,同时不降低性能(约90%的参数被剪枝)。受到这一驱动,作者提出存在一个子网络,其中包含对下游任务优化性能至关重要的关键参数,可以进行微调。

梯度还是幅度?与[5,9,53,69]中的方法不同,作者的方法基于梯度值确定参数重要性。梯度与幅度的一个重要区别是,梯度基于特定任务的反向传播损失计算,而幅度方法使用一组相同的参数来处理所有下游任务。然而,作者的主体部分中的消融实验表明,基于梯度的方法性能更好,并且图12也表明每个任务都有自己的任务特定参数。

11 Limitations and societal impacts

局限性:某些类似任务可以通过共享参数来优化,从而提高所有单个任务上的性能。然而,作者的工作专注于为各种任务选择不同的参数。尽管作者已经调整了可承受的参数,但作者并没有充分利用不同任务之间参数共享的潜力。因此,作者提出作者的工作可以扩展到多任务设置,在这种设置中,任务共享调优参数,从而进一步减少可学习参数的总数。

社会影响:作者的方法可以通过调整网络参数的不到1%来有效地微调预训练模型以适应下游任务。这在处理大型预训练模型和多个下游任务时特别有益,因为它节省了计算资源、内存成本,并减少了碳排放。作者的方法在训练和推理阶段都没有引入任何额外的参数,与其它方法不同。然而,与其它微调方法一样,作者的方法依赖于预训练模型。如果上游预训练模型训练于非法数据,它可能会违反微调方法的使用。

12 Extended related work

Visual parameter efficient fine-tuning

计算机视觉领域,当前的研究致力于在广泛的数据集上预训练更大的模型,然后通过微调不同的下游任务来获得优越的性能和更快的收敛速度。传统艺术将所有网络参数设为可学习的,并将其适应到目标任务。然而,随着基础模型的增大和下游任务的数量的增加,这变得不切实际,因为它需要大量的计算和存储需求。参数高效的微调(PEFT)方法被提出来缓解这种负担,它只调整网络参数的一小部分。通用的PEFT可以分为基于添加的和基于选择的两种方法。

增加参数的方法引入了预训练 Backbone 的额外参数。 Adapter 方法将模型中的大多数参数保持不变,只更新少量注入的参数。瓶颈结构 Adapter采用残差路径,通过学习下行投影和上行投影,使用非线性激活来利用原始知识和任务特定知识。其他人[61]提出了一个超网络来生成模型权重或分解密集加权矩阵为低秩矩阵以减少参数。而不是引入额外的模块,提示方法在将输入传递给每个Transformer块之前将输入与上下文进行包装。

一个代表性的工作VPT在将输入标记(prompts)添加到输入标记(tokens)之前,将它们添加到每个Transformer块的前面。VPT包括两个与插入的层数相关的变体VPT-Shallow和VPT-Deep。VPT-Shallow仅在第一个Transformer层前面添加提示,而VPT-Deep在所有层前面添加提示。然而,在将方法应用于新任务时,它由于依赖手工制作的提示长度选择而具有灵活性。

除了 Adapter 和提示调优之外,最近的一项研究SSF引入了两个可学习的向量来缩放和移动每个Transformer操作的特征图,并实现了令人鼓舞的结果。这些额外的参数将导致计算开销显著增加,并阻碍收敛速度。作者的方法在不添加参数或更改网络拓扑的情况下有效解决这些问题。

选择性方法不引入任何新参数,直接选择一部分参数进行优化,而不改变模型的固有结构。Bitfit只微调预训练模型中的偏置向量。其他方法只微调前k层或最后线性层等,而其他层保持不变。尽管效率高,但由于手动指定的参数往往是非最优解,它们与全量微调相比在准确率上存在显著下降。作者的梯度参数选择方法也属于这一类。由于梯度可以作为确定参数重要性的工具,作者的方法直观但令人惊讶地有效。

Subset network training

标准剪枝技术自然地揭示了具有有效训练能力的子网络。彩票票假设表述了子网络可以达到与原始网络相当的测试准确性。

根据理论,基于子网络的微调方法得到了广泛研究。SpotTune设计了一个策略网络来为子网络做出路由决策。Child-tuning通过在反向传播过程中屏蔽非子网络的梯度来迭代地更新子网络的一部分参数。然而,超网络或迭代参数选择的计算开销使得这些方法都不是参数高效的。作者在训练之前通过简单的梯度权重排序来固定将更新的参数的位置,这使得作者的方法是参数高效的。

参考

[1].Gradient-based Parameter Selection for Efficient Fine-Tuning

GPS还可以微调?基于梯度的参数选择成就更好模型,消除结构设计!

点击上方卡片,关注「AI视界引擎」公众号

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy