杨灵投稿自凹非寺

量子位 | 公众号 QbitAI

如何生成高难度、指令超复杂的视频呢？

北大与快手AI有解了，他们提出新框架VideoTetris，就像拼俄罗斯方块一样，轻松组合各种细节~

在复杂视频生成任务中，超过了Pika，Gen-2等一众商用模型。

这个框架不仅能够直接增强现有模型的组合生成，还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

在文生图领域，RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域，组合生成自然地扩展到时间和空间维度，这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务，包括两个子任务：
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现，几乎所有开源模型，包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗，右边一只打盹的猫在阳光下小憩”，结果生成的都是融合了两个物体信息的奇怪视频。

而使用VideoTetris，生成出的视频是这样，成功保留了所有的位置信息和细节特征。

在长视频生成中，目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化，或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令：“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定，出现顺序也与Prompt一致，最后两只松鼠还在自然地交换食物。

使用了时空组合扩散方法

这样的效果是如何做到的呢？该团队的 VideoTetris 框架使用了时空组合扩散方法

他们将一个提示词首先按照时间解构，为不同的视频帧指定好不同的提示信息。

随后，在每一帧上进行空间维度的解构，将不同物体对应不同的视频区域。

最后，通过时空交叉注意力进行组合，通过这个过程实现高效的组合指令生成。

而为了生成更高质量的长视频，该团队还提出了一种增强的训练数据预处理方法。使得长视频生成更加动态稳定。

此外，还引入了一个参考帧注意力机制，使用原生VAE对之前的帧信息编码，区别于StreamingT2V，Vlogger，IPAdapter等使用CLIP 编码的方式，这样使得参考信息的表示空间和噪声完全一致，轻松获取更好的内容一致性。

这样优化的结果是，长视频从此不再有大面积偏色的现象，能够更好地适应复杂指令，并且生成的视频更具有动感，更符合自然。

对于这种组合生成的结果评测工作，该团队引入了新的评测指标VBLIP-VQA和VUnidet，将组合生成评价方法首次扩展到视频维度。

实验测试表明，在组合视频生成能力上，该模型的表现超过了所有开源模型，甚至是商用模型如Gen-2和Pika。

据介绍，该代码将完全开源。

论文地址：
https://arxiv.org/abs/2406.04277
项目主页：
https://videotetris.github.io/
GitHub地址：https://github.com/YangLing0818/VideoTetris

2024 年 6 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

首次定义组合视频生成

使用了时空组合扩散方法

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC