每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

477次阅读
没有评论

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

同时画面还保持高质量

NFD团队 投稿

量子位 | 公众号 QbitAI

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量!

视频生成现在都快这个程度了?

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)

通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。

或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。

比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成只需约0.48秒

玩家在黑暗的走廊中不断前进:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

玩家在攻击小动物后转动视角:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

玩家跳跃后放置木块:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

玩家跳上草地:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

玩家不停地放置石块:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型——MineWorld,也是这个微软研究院的团队做的。

它能够以每秒4-7帧的速度和模型进行交互。

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

如今,NFD让生成速度又快了几倍。

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

那么具体是如何做到的?

NFD长啥样?

当前多数的自回归视频生成模型如VideoPoet采用类似于Language Model的方式,将视频编码成离散视频Token,并逐个生成Token。

然而这种方式在生成的时候既没法利用GPU并行计算的能力,也破坏了帧内的相关性。

因此,研究人员采用了Next-Frame Diffusion (NFD)的方式来建模视频,其使用帧内双向注意力,帧间因果注意力机制的方式来建模视频,并采用扩散模型多步迭代生成连续Token。

这样做的好处是可以在生成的时候逐帧采样来流式生成视频,并在帧内并行生成以提高推理效率。

为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数:

  • 将一致性蒸馏扩展到视频领域,并专门针对视频模型优化,从而少量采样步骤,实现高效推理;
  • 提出了投机采样方法。由于相邻帧常常动作输入相同,模型使用当前动作输入生成多个后续帧,若输入动作发生变化,则丢弃投机生成的帧,以充分利用并行计算能力。
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

引入块状因果注意力机制的Transformer

具体来说,NFD的架构包含一个将原始视觉信号转换为Token的Tokenizer,以及生成这些Token的基于扩散的Transformer模型。在Transformer内,研究人员使用了块状因果注意力机制,结合帧内的双向注意力和帧间的因果依赖,高效建模时空依赖性。

相比计算密集的3D全注意力,该方法将整体成本减少50%,支持高效地并行预测下一帧所有Token。

基于Flow Matching的训练和推理过程

研究人员基于Flow Matching构建训练流程,追求简单和稳定性。对于视频帧xi,分配一个独立时间步t,并通过线性插值生成加噪版本:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

训练通过最小化Flow Matching损失来进行:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在采样阶段,研究人员采用DPM-Solver++,通过以下公式对同一帧的所有Token去噪:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

一致性蒸馏

虽然NFD在推理阶段支持并行Token采样,受限于扩散模型的多步采样,实现实时视频生成仍具挑战性。

因此,研究人员首先将一致性蒸馏扩展到视频领域,通过数学变换将流匹配模型转换TrigFlow模型,从而简化了连续时间一致性模型的训练,并针对视频数据的特性进行调整。

具体的训练目标为:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

投机采样

与此同时,研究人员观察到,用户输入的游戏动作在很多时候是可预测的。

例如,用户执行前进命令的时候往往会持续多帧。

鉴于这个发现,研究人员进一步提出了一种投机采样技术,通过并行预测多个未来帧加速推理。

在投机生成后,将预测动作与实际后续动作输入进行比较。一旦检测到预测与真实动作不一致,丢弃之后的所有投机帧,并从最后验证的帧重新开始生成

效果如何?

下表从视频内容的生成效率和视觉质量两个角度对比了本工作的方法和当前最先进方法。

其中,NFD指使用Flow Matching目标训练并通过DPM-Solver++进行18次采样的模型;NFD+为加速版本,通过一致性蒸馏实现4步采样,并结合了投机采样技术。

NFD和NFD+方法与先前模型的生成效率、质量的对比:

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

结果表明,NFD在多项指标上优于先前的自回归模型。

具体而言,NFD(310M)在FVD上达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69,同时运行速度达6.15FPS,快超过2倍。

NFD+通过高效采样策略显著加速:130M和310M模型分别达到42.46FPS和31.14FPS,远超所有基线。

即使速度提升,NFD+仍保持竞争力的视觉质量,310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当。

最后总结来说,团队认为当下视频生成模型在各个领域百花齐放,有诞生像Sora、可灵、Veo3这样的产品,也有Genie、MineWorld这样的游戏世界模拟器,为未来世界模型的实现提供了巨大意义。随着视频模型广泛的应用,更灵活、更高效的生成范式变得越来越重要。

论文地址:https://arxiv.org/pdf/2506.01380
项目主页:https://nextframed.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...