Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget
解决问题:
本文旨在解决Masked Image Modeling (MIM)方法在downstream classification任务中需要大量标记数据的问题,提出了一种新的方法Masked Autoencoder Contrastive Tuning (MAE-CT)来结合MIM和Instance Discrimination (ID)方法,使得MIM方法在不需要大量标记数据的情况下也能进行downstream classification任务。
关键思路:
MAE-CT是一种序列方法,通过将Nearest Neighbor Contrastive Learning (NNCLR)应用于预训练的MAE来调整其特征,使其能够形成语义对象聚类,而不需要使用任何标签。MAE-CT应用于大规模的Vision Transformer (ViT)模型,与之前在ImageNet上训练的自监督方法相比,在线性探测、k-NN和低样本分类准确性以及无监督聚类准确性方面,MAE-CT能够匹配或超越之前的方法。此外,MAE-CT不需要额外的图像增强,而是通过最近邻查找来实现数据增强的效果,这种数据驱动的增强效果随着模型大小的增加而提高。MAE-CT计算效率高。
其他亮点:
本文使用了大规模的Vision Transformer (ViT)模型,并在ImageNet数据集上进行了实验。实验结果表明,MAE-CT能够在不需要大量标记数据的情况下,达到与之前方法相当或更好的性能。此外,本文还发现,MAE-CT不需要额外的图像增强,只需要最近邻查找即可实现数据增强的效果,这一发现对于自监督学习领域具有重要意义。
关于作者:
本文的主要作者是Johannes Lehner、Benedikt Alkin、Andreas Fürst、Elisabeth Rumetshofer、Lukas Miklautz,他们来自奥地利林茨工业大学。在之前的代表作中,Johannes Lehner曾发表过关于自监督学习的论文《Unsupervised Learning from Video with Contrastive Pixel Predictions》,Benedikt Alkin曾发表过关于图像分类的论文《Image Classification Using Very Few Training Examples》。
相关研究:
近期其他相关的研究包括:
- “Unsupervised Learning of Visual Features by Contrasting Cluster Assignments”,作者:Mathilde Caron、Pierre Bojanowski、Armand Joulin、Mikolaj Szydlowski,机构:Facebook AI Research。
- “Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning”,作者:Jean-Bastien Grill、Florian Strub、Florent Altché、Corentin Tallec、Pierre H. Richemond、Elena Buchatskaya、Carl Doersch、Bernard A. Ghanem、Mohamed Aly,机构:Facebook AI Research。
论文摘要:本文提出了一种名为Masked Autoencoder Contrastive Tuning (MAE-CT) 的顺序方法,将最近邻对比学习 (NNCLR) 应用于预训练的 Masked Autoencoder (MAE) 模型中,以使其能够在不使用大量标注数据的情况下,将 MAE 模型的丰富特征调整为对象的语义聚类。MAE-CT 可以应用于大型和巨型 Vision Transformer (ViT) 模型,其结果与以前在 ImageNet 上进行自监督训练的方法相当或更好,包括线性探测、k-NN 和低样本分类准确度,以及无监督聚类准确度。值得注意的是,即使没有额外的图像增强,也可以实现类似的结果。虽然 Instance Discrimination (ID) 方法通常依赖于手工制作的增强来避免捷径学习,但我们发现最近邻查找已经足够,而且这种数据驱动的增强效果随着模型规模的增大而提高。MAE-CT 计算效率高,例如,从 MAE 预训练的 ViT-L/16 开始,使用八个 A100 GPU 仅需五个小时,MAE-CT 就可以将 ImageNet 1% 低样本准确度从 67.7% 提高到 72.6%,线性探测准确度从 76.0% 提高到 80.2%,k-NN 准确度从 60.6% 提高到 79.1%。