PVP: Pre-trained Visual Parameter-Efficient Tuning
解决问题:
这篇论文旨在解决大规模预训练模型在下游任务中计算和存储成本高的问题,提出了一种新的预训练视觉参数高效调整框架PVP,以提高在低数据环境下的性能。
关键思路:
论文提出了一种新的预训练视觉参数高效调整框架PVP,该框架首先预训练参数高效调整模块,然后结合预训练的变换器骨干和调整模块进行下游任务的参数高效调整。与当前领域的研究相比,该论文的思路在于通过预训练调整模块来减少计算和存储成本,并在低数据环境下提高性能。
其他亮点:
该论文的实验结果表明,PVP方法在五个细粒度视觉分类(FGVC)和VTAB-1k数据集上显著优于现有的PETuning方法。另外,论文还发现了初始化调整模块的不当方式是性能不佳的主要原因之一。
关于作者:
该论文的主要作者包括赵松、杨科、管乃阳、朱俊杰、乔鹏和胡庆勇。他们来自中国科学院自动化研究所、北京大学和华为等机构。据数据库显示,赵松等人之前的代表作包括《VideoBERT: A Joint Model for Video and Language Representation Learning》、《Unsupervised Learning of Depth and Ego-Motion from Video》等。
相关研究:
近期其他相关的研究包括《ViT-Patch Aggregation for Image Classification》(作者:Xiaohan Ding等,机构:南京大学)、《Zero-shot Learning via Knowledge Distillation from Internal Representation》(作者:Jingjing Li等,机构:南京大学)等。
论文摘要:大规模预训练的transformer在各种计算机视觉任务中取得了显著的成功。然而,由于它们高昂的计算和存储成本,完全微调这些模型以用于下游任务仍然具有很大挑战性。最近,参数高效微调(PETuning)技术,例如视觉提示微调(VPT)和低秩自适应(LoRA),通过将轻量级提示模块插入预训练模型并用少量可训练参数调整这些提示模块,同时保持transformer主干不变,显著降低了计算和存储成本。尽管只需要调整少量参数,大多数PETuning方法仍需要大量的下游任务训练数据才能取得良好的结果。在数据量较少的情况下,特别是每个类别只有一个或两个示例时,表现不足。为此,我们首先通过经验方法确定了表现不佳的原因主要是由于提示模块初始化方式不当,这在预训练语言模型中也得到了验证。接下来,我们提出了一种预训练视觉参数高效(PVP)微调框架,该框架首先预训练参数高效微调模块,然后利用预训练模块以及预训练transformer主干来执行下游任务的参数高效微调。在五个细粒度视觉分类(FGVC)和VTAB-1k数据集上的实验结果表明,我们提出的方法显著优于最先进的PETuning方法。