A baseline on continual learning methods for video action recognition
解决问题:本文旨在解决连续学习在视频动作识别中的应用问题。虽然连续学习已经引起了研究界的广泛关注,但大多数研究都是针对简单的图像分类场景进行的。因此,本文提供了一个基准,评估了最先进的连续学习方法在视频动作识别中的表现。
关键思路:本文提出了两个方法无关的变体,利用模型置信度或数据信息来选择可记忆的样本,以应对视频设置中的内存需求增加。实验结果表明,与其他方法相比,排练方法表现更好;此外,所提出的内存高效变体显示出在更小的缓冲区大小下保持一定水平性能的有效性。
其他亮点:本文的实验使用了公开数据集,并对所提出的方法进行了广泛的实验评估。本文的方法提供了一种有效的解决方案,可以在视频动作识别中应用连续学习。然而,本文并没有提供开源代码。
关于作者:Giulia Castagnolo、Concetto Spampinato、Francesco Rundo、Daniela Giordano和Simone Palazzo是本文的主要作者。他们分别来自意大利的不同机构。Giulia Castagnolo曾在“Learning to Learn from Weak Supervision by Full Supervision”等文章中发表过论文;Concetto Spampinato曾在“Deep Learning for Automated Skeletal Bone Age Assessment in X-ray Images”等文章中发表过论文;Francesco Rundo曾在“3D Convolutional Networks for Gesture Recognition in RGB-D Data”等文章中发表过论文;Daniela Giordano曾在“Deep Learning for Real-Time EEG Analysis in Human Brain-Computer Interfacing”等文章中发表过论文;Simone Palazzo曾在“Joint Learning of Facial Expression and Head Pose from RGB-D Data Using CNNs”等文章中发表过论文。
相关研究:最近的其他相关研究包括“Continual Learning for Object Detection”(作者:Yi Zhu等,机构:华中科技大学)、“Continual Learning with Hypernetworks”(作者:David Güera等,机构:巴塞罗那计算机科学研究所)和“Continual Learning for Speech Recognition with Incremental Transformers”(作者:Yi Ren等,机构:北京大学)。
论文摘要:本文提出了一个基准测试,评估了最先进的持续学习方法在视频动作识别中的表现。持续学习近来引起了研究界的关注,因为它旨在解决传统有监督训练模型的长期限制。然而,大多数关于此主题的研究都是在简单的图像分类场景中进行的。与图像分类相比,视频场景由于时间维度的存在而具有更高的复杂度,对于最佳表现的演练方法,计算资源的要求更高。为了抵消增加的内存需求,我们提出了两种不依赖于方法的演练方法变体,利用模型置信度或数据信息的度量来选择可记忆的样本。我们的实验表明,与文献中预期的一样,演练方法优于其他方法;此外,所提出的内存高效变体被证明在更小的缓冲区大小下保持一定水平的性能是有效的。