目标很重要:理解自监督目标对视觉Transformer表示的影响

716次阅读
没有评论

Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations

解决问题:本论文旨在解释两种自监督学习视觉转换器的学习目标(联合嵌入和重构)对模型表示和可迁移性的影响,并探讨这些差异如何影响下游任务的转移表现。这是一个新的问题,因为目前还没有研究探讨这些自监督学习的目标如何影响视觉转换器的表示和可迁移性。

关键思路:本论文通过分析这两种自监督学习的学习目标对模型表示和可迁移性的影响来解释它们之间的差异。研究发现,联合嵌入和重构的学习特征显著不同,并且使用相似目标训练的模型即使在不同的架构上也会学习相似的特征。这些差异主要由注意力和标准化层驱动,并且在网络的早期阶段就会出现。此外,研究还发现,联合嵌入的特征在分类的线性探针转移方面表现更好,因为不同的目标驱动不同的信息分布和不变性。这些差异解释了需要特征空间特定性的下游任务的转移表现相反的趋势。最后,研究还探讨了微调如何改变重构表示以实现更好的转移,并显示微调重新组织信息以使其更类似于预先训练的联合嵌入模型。

其他亮点:本论文的实验设计了多个数据集和模型,使用多种评估指标来评估模型的性能。该论文还提供了开源代码。此外,本论文的研究结果对于视觉转换器的自监督学习具有重要意义,并为未来的研究提供了方向和启示。

关于作者:Shashank Shekhar、Florian Bordes、Pascal Vincent和Ari Morcos都是著名的人工智能研究人员。Shashank Shekhar是Facebook AI Research的研究员,他的研究重点是自监督学习和视觉推理。Florian Bordes是Facebook AI Research的研究员,他的研究重点是自然语言处理和表示学习。Pascal Vincent是蒙特利尔大学计算机科学系的教授,他的研究领域包括机器学习、深度学习和神经网络。Ari Morcos是Facebook AI Research的研究员,他的研究重点是自监督学习和视觉推理。他们之前的代表作包括《SimCLR: A Simple Framework for Contrastive Learning of Visual Representations》和《DINO: Emerging Properties in Self-Supervised Vision Transformers》等。

相关研究:近期的相关研究包括《Understanding and Improving Information Propagation in Vision Transformers》(Yunpeng Chen等,Google Research)、《Big Transfer (BiT): General Visual Representation Learning》(Alexander Kolesnikov等,Google Research)和《What Makes Training Multi-Modal Networks Hard?》(Dong-Hyun Lee等,KAIST)等。

论文摘要:本文旨在分析自监督学习中的两种主要范式——基于联合嵌入的学习和基于重构的学习,对视觉Transformer表示的结构和可转移性的影响,以解释它们在转移性能上的差异。研究发现,基于重构的学习特征与基于联合嵌入的学习特征显著不同,而且即使在不同的架构中,使用相似目标训练的模型也会学习到相似的特征。这些差异主要由注意力和归一化层驱动,并早期出现在网络中。研究发现,基于联合嵌入的特征在分类的线性探测转移方面表现更好,因为不同的目标驱动了不同的信息分布和不变性,这些差异解释了需要特征空间特定性的下游任务的相反的转移性能趋势。最后,研究探讨了微调如何改变重构表示以实现更好的转移,并表明微调重新组织信息,使其更类似于预训练的联合嵌入模型。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy