Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

372次阅读
没有评论

Sora2还在5秒打转,字节AI视频已经4分钟“起飞”

全程画面还能不崩坏

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了!

先来看一个前方潜水员拍摄的“真实”海底世界Vlog:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI

这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源

话不多说,再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线,be like:

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下,此前的长视频生成SOTA SkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁)

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标All kill,视觉稳定性大幅领先CausVid等方法。

或许,AI电影时代离我们已不再遥远……下面来康康更多详细内容。

从5秒到4分15秒

先一起来思考下这个问题:为啥现在的AI视频质量这么高,但还是很容易被人捉虫AI生成?

其实bug就出自视频长度

无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,视频内容再真假难辨,长度却都只有5到10秒

即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。

原因无他,传统扩散视频生成模型依赖Transformer结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。

于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程:

  • 反向噪声初始化:让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。
  • 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。
  • 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD计算。

简单来说,就是让LLM在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。

通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的坏视频也会被误判为好。

为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。

这一点在后续的实验结果中也得以验证。

兼顾时长和质量

研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量长时长生成上的效果。

其中短时长场景(5s)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。

说明Self-Forcing++虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。

Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法

参考链接:
[1]https://self-forcing-plus-plus.github.io/
[2]https://arxiv.org/abs/2510.02283

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...