智源LIVE第37期|HNeRV:视频数据一种高效、紧凑式表示方法

1,294次阅读
没有评论

智源Live第37期将于2023年04月14日11:00-12:00线上召开,邀请了马里兰大学帕克分校获得计算机科学博士生陈豪进行分享。本期作者将介绍一种名为NeRV的创新视频神经表示方法,其中每个视频都以神经网络的形式隐式存储。

在NeRV的基础上,我们提出了一种混合表示方法(HNeRV),从而改进了内部泛化和表示容量。它允许高效的视频表示和压缩,模型大小比原始原始视频小多达1000倍。

课前材料

论文标题:HNeRV:A Hybrid Neural Representation for Videos

论文链接:https://arxiv.org/abs/2304.02633

论文解读:https://hub.baai.ac.cn/view/25319

项目主页:https://haochen-rye.github.io/HNeRV
项目代码:  https://github.com/haochen-rye/HNeRV

智源LIVE第37期|HNeRV:视频数据一种高效、紧凑式表示方法

陈豪

陈豪即将从马里兰大学帕克分校获得计算机科学博士学位,并作为博士后研究员加入Meta,他曾在华中科技大学获得硕士和学士学位。个人主页:https://haochen-rye.github.io

随着视频的普及增加,找到高效和紧凑的视频表示方法以便于存储、传输和下游视频任务变得至关重要。在这个演讲中,作者将介绍一种名为NeRV的创新视频神经表示方法,其中每个视频都以神经网络的形式隐式存储。在NeRV的基础上,我们提出了一种混合表示方法(HNeRV),从而改进了内部泛化和表示容量。它允许高效的视频表示和压缩,模型大小比原始原始视频小多达1000倍。

除了高效性外,HNeRV的简单解码过程 – 前馈操作 – 使得视频加载速度快,部署方便。因此,我们开发了一种高效的神经视频数据加载器(NVLoader),其速度比传统视频数据加载器快3-6倍。为了解决编码速度问题,我们引入了HyperNeRV框架,该框架使用超网络将输入视频直接映射到NeRV模型权重,将编码过程加速了10^4倍。

除了开发紧凑且隐式的视频神经表示方法外,我们还探索了基于这些表示方法的一些引人注目的应用,例如视频插值、视频恢复和视频编辑。此外,这些表示方法的紧凑性使其成为理想的输出视频格式,显著减少了搜索空间,或作为视频理解模型的高效输入。

智源LIVE第37期|HNeRV:视频数据一种高效、紧凑式表示方法

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy