莱斯大学&谷歌大脑:在无标签视频上利用对比MAE进行特征学习

887次阅读
没有评论

莱斯大学&谷歌大脑:在无标签视频上利用对比MAE进行特征学习

MAE通过随机遮挡和重构输入图像块进行自监督学习,而对比学习对同一个样本的不同视图进行自监督学习。结合这两个自监督方法,本文提出了ViC-MAE,一个将MAE提取的遮挡后局部特征与全局特征进行无标签视频自监督学习的方法。通过实验,作者证明ViC-MAE能够在视频、图像两个任务上取得领先的分类性能:在Imagenet-1K数据集上提升1.58%Top-1精确度,在Kinetics-400数据集上得到81.5%Top-1精确度。

标题:Visual Representation Learning from Unlabeled Video using Contrastive Masked Autoencoders

论文:https://arxiv.org/pdf/2303.12001.pdf

作者:Jefferson Hernandez, Ruben Villegas, Vicente Ordonez

莱斯大学&谷歌大脑:在无标签视频上利用对比MAE进行特征学习

莱斯大学&谷歌大脑:在无标签视频上利用对比MAE进行特征学习

 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy