北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

奇月
2024-12-27
14:02:47

来源：量子位

视频编辑评价标准也卷起来了

北京大学MMCAL团队投稿
量子位 | 公众号 QbitAI

视频生成模型卷得热火朝天，配套的视频评价标准自然也不能落后。

现在，北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，相关代码与预训练权重均已开源。

它重点关注了AI视频编辑中最常见的一个场景：视频编辑前后结果与原始视频之间的联系。

例如，在“摘掉女孩的耳环”的任务中，需要保留人物ID，源视频与编辑结果应该有着较强语义相关性，而在“把女孩换为钢铁侠”这样的任务中，语义就明显发生了改变。

此外，它的数据还更加符合人类的主观感受，是一个有效的主观对齐量化指标。

实验结果显示，与FastVQA、StableVQA、DOVER、VE-Bench QA等视频质量评价方法相比，VE-Bench QA取得了SOTA的人类感知对齐结果：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

这到底是怎么做到的呢？

简单来说，VE-Bench首先从原始视频收集、提示词收集、视频编辑方法、主观标注4个方面入手，构建了一个更加丰富的数据库VE-Bench DB。

此外，团队还提出了创新的测试方法VE-Bench QA，将视频的整体效果分成了文字-目标一致性、参考源与目标的关系、技术畸变和美学标准多个维度进行综合评价，比当前常用的CLIP分数等客观指标、PickScore等反映人类偏好的指标都更加全面。

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

相关论文已入选AAAI 2025（The Association for the Advancement of Artificial Intelligence）会议。

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

更丰富全面的数据库VE-Bench DB

原始视频收集

为了确保数据多样性，VE-Bench DB除了收集来自真实世界场景的视频，还包括CG渲染的内容以及基于文本生成的AIGC视频。

数据来源包括公开数据集DAVIS、Kinetics-700、Sintel、Spring的视频，来自Sora和可灵的AIGC视频，以及来自互联网的补充视频。

来自互联网的视频包括极光、熔岩等常规数据集缺乏的场景。

所有视频都被调整为长边768像素，同时保持其原始宽高比。

由于目前主流视频编辑方法支持的长度限制，每段视频都被裁剪为32帧。

源视频的具体内容构成如下图所示，所有样本在收集时均通过人工筛选以保证内容的多样性并减少冗余：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-Bench原始视频构成。(a)视频来源 (b)视频类型 (c) 视频运动种类 (d) 视频内容种类

提示词收集

参考过往工作，VE-Bench将用于编辑的提示词分为3大类别：

风格编辑（Style editing）：包括对颜色、纹理或整体氛围的编辑。
语义编辑（Semantic editing）：包括背景编辑和局部编辑，例如对某一对象的添加、替换或移除。
结构编辑（Structural editing）：包括对象大小、姿态、动作等的变化。

针对每个类别，团队人工编写了相应的提示词，对应的词云与类别构成如下：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-Bench提示词构成。(a)词云 (b)提示词类型占比统计

编辑结果生成

VE-Bench选取了8种视频编辑方法。

这些方法包括早期的经典方法与近期较新的方法，涵盖从SD1.4～SD2.1的不同版本，包括需要微调的方法、0-shot的方法、和基于ControlNet、PnP等不同策略编辑的方法。

人类主观评价

在进行主观实验时，VE-Bench确保了每个视频样本均由24位受试者进行打分，符合ITU标准中15人以上的人数要求。

所参与受试者均在18岁以上，学历均在本科及以上，包括商学、工学、理学、法学等不同的背景，有独立的判断能力。

在实验开始前，所有人会线下集中进行培训，并且会展示数据集之外的不同好坏的编辑例子。

测试时，受试者被要求根据其主观感受，并对以下几个方面进行综合评价：文本与视频的一致性、源视频与目标视频的相关度以及编辑后视频的质量，分数为十分制。

最后收集得到的不同模型平均得分的箱线图如下：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-Bench模型得分箱线图

其中，横坐标表示不同模型ID，纵坐标表示Z-score正则化后的MOS (Mean Opinion Score)分数。橘红色线条表示得分的中位数。

可以看出，当前的大多数文本驱动的视频编辑模型中位数得分普遍在5分左右浮动，少数模型的得分中位数可以达到近6分，部分模型的得分中位数不到4分。

模型得分最低分可以下探到不到2分，也有个别样本最高可以达到近9分。

具体每个样本在Z-score前后的得分直方图如下图所示，可以看出极高分和极低分仍在少数：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-Bench模型得分直方图

在此基础上，团队进一步绘制了不同视频编辑模型在VE-Bench提示词上的表现：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△不同视频编辑模型在VE-Bench中不同类别的提示词上的表现

可以看出，目前的模型都相对较为擅长风格化指令，这可能是利用了SD在大量不同风格图片上训练的先验成果。

同时，删除指令相比于添加得分更低，因为它需要额外考虑物体或背景重建等问题，对模型语义理解与细粒度特征提取能力有更高要求。

现有模型都还不太擅长形状编辑。这方面FateZero模型表现较为优秀，这可能与它针对shape-aware提出的注意力混合方法有关。

从3个纬度进行评估的VE-Bench QA

在构建的VE-Bench DB的基础上，团队还提出了创新的VE-Bench QA训练方法，目标是得到与人类感知更加接近的分数。

下面这张图展示了VE-Bench QA的主要框架：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

VE-Bench QA从3个维度对文本驱动的视频编辑进行评估：

文本-视频一致性

为了衡量所编辑视频是否与文本有关，VE-Bench QA基于BLIP进行了有效的视频-文本相关性建模，通过在BLIP视觉分支的基础上加入Temporal Adapter将其扩展到三维，并与文本分支的结果通过交叉注意力得到输出。

源视频-编辑后视频动态相关性

为了更好建模随上下文动态变化的相关性关系，VE-Bench QA在该分支上通过时空Transformer将二者投影到高维空间，并在此基础上拼接后利用注意力机制计算二者相关性，最后通过回归计算得到相应输出。

传统维度的视觉质量方面

VE-Bench QA参考了过往自然场景视频质量评价的优秀工作DOVER，通过在美学和失真方面预训练过后的骨干网络输出相应结果。

最终各个分支的输出通过线性层回归得到最终分数。

实验结果显示，VE-Bench QA在多个数据集上所预测的结果，其与真值的相关性得分都领先于其他方法：

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-BenchQA在T2VQA-DB数据集上的结果

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

△VE-Bench QA在VE-Bench DB数据集上的结果

论文链接：https://arxiv.org/abs/2408.11481
代码链接：https://github.com/littlespray/VE-Bench

2024 年 12 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

北京大学MMCAL团队投稿
量子位 | 公众号 QbitAI

更丰富全面的数据库VE-Bench DB

原始视频收集

△VE-Bench原始视频构成。(a)视频来源 (b)视频类型 (c) 视频运动种类 (d) 视频内容种类

提示词收集

△VE-Bench提示词构成。(a)词云 (b)提示词类型占比统计

编辑结果生成

人类主观评价

△VE-Bench模型得分箱线图

△VE-Bench模型得分直方图

△不同视频编辑模型在VE-Bench中不同类别的提示词上的表现

从3个纬度进行评估的VE-Bench QA

△VE-BenchQA在T2VQA-DB数据集上的结果

△VE-Bench QA在VE-Bench DB数据集上的结果

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

北京大学MMCAL团队 投稿 量子位 | 公众号 QbitAI

更丰富全面的数据库VE-Bench DB

原始视频收集

△VE-Bench原始视频构成。(a)视频来源 (b)视频类型 (c) 视频运动种类 (d) 视频内容种类

提示词收集

△VE-Bench提示词构成。(a)词云 (b)提示词类型占比统计

编辑结果生成

人类主观评价

△VE-Bench模型得分箱线图

△VE-Bench模型得分直方图

△不同视频编辑模型在VE-Bench中不同类别的提示词上的表现

从3个纬度进行评估的VE-Bench QA

△VE-BenchQA在T2VQA-DB数据集上的结果

△VE-Bench QA在VE-Bench DB数据集上的结果

文心AIGC

北京大学MMCAL团队投稿
量子位 | 公众号 QbitAI