AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation
解决问题:本篇论文旨在解决视频帧插值的问题,提出了一种新的网络架构AMT,以提高插值效率和准确性。
关键思路:AMT网络架构基于两个关键设计。首先,对于所有像素对,建立双向相关性体积,并使用预测的双边流来检索相关性,以更新流和插值内容特征。其次,从一对更新的粗流派生多个细粒度流场,以便单独对输入帧进行反向扭曲。这两个设计的结合使我们能够生成有前途的任务导向流,并减少在帧插值期间建模大运动和处理遮挡区域时的困难。这些特点促使我们的模型在各种基准测试中实现了最先进的性能,并具有高效性。此外,我们的基于卷积的模型在准确性和效率方面与基于Transformer的模型相比具有竞争优势。
其他亮点:该论文的代码已在https://github.com/MCG-NKU/AMT上开源。该论文还提出了多个细粒度流场的概念,这为未来的研究提供了一个新的方向。
关于作者:本篇论文的主要作者是Zhen Li、Zuo-Liang Zhu、Ling-Hao Han、Qibin Hou、Chun-Le Guo和Ming-Ming Cheng。他们分别来自南开大学、北京大学、清华大学和南京大学。他们之前的代表作包括:Deep Flow-Guided Video Inpainting、Edge-Conditioned Convolutional Neural Networks、Semantic Image Synthesis with Spatially-Adaptive Normalization等。
相关研究:近期其他相关的研究包括:Deep Video Interpolation Using Frame Prediction and Flow Correction、Flow-Grounded Spatial-Temporal Video Prediction via Multi-Scale Sampling等。这些研究主要关注视频帧插值和视频预测的问题。
论文摘要:我们提出了一种名为AMT(All-Pairs Multi-Field Transforms)的新型网络架构,用于视频帧插值。它基于两个基本设计。首先,我们为所有像素对构建双向相关卷积体,并使用预测的双边流来检索相关性,以更新两个流和插值内容特征。其次,我们从一对更新的粗流派生出多组细粒度的流场,以便分别在输入帧上进行反向变形。将这两个设计结合起来,使我们能够生成有前途的任务导向流,并减少帧插值过程中建模大运动和处理遮挡区域的困难。这些特性使我们的模型在各种基准测试中实现了最先进的性能,并具有高效性。此外,我们的基于卷积的模型在准确性和效率方面与基于Transformer的模型相比也有竞争力。我们的代码可在https://github.com/MCG-NKU/AMT上获得。