北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

梦晨发自凹非寺
量子位 | 公众号 QbitAI

AI能理解搞笑视频笑点在哪里了。

AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示，Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的，而视频描述了自由女神像的多个角度，表明它们来自同一个地方。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

在投影之前对齐图像和视频表示

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

这项工作具体贡献如下：

Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中，使得大型语言模型能够同时对图像和视频进行视觉推理能力。
Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中，将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的，该编码器将不同的模态映射到文本特征空间中，提供了一个统一的视觉表示。然后，统一的视觉表示经过共享的投影层和词嵌入层进行编码，以将统一的视觉表示映射给大型语言模型使用。
Video-LLaVA在视频上表现出色，在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力，研究团队做了充分实验。

视频理解能力实验。

如表3所示，Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT，并且涨幅相当可观。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

图片理解能力实验。

该研究还与InstructBLIP，Otter，mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较，结果如表2所示：

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

为了评估预先对齐视觉输入的效果，研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器，其中MAE编码器生成分离的视觉表示，而LanguageBind编码器生成统一的视觉表示（因为预先对齐了视觉表征）。

然后，他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能，包括9个图片理解基准和4个视频理解基准。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

通过替换图片编码器为MAE编码器，LLM在初始学习视觉表示时将视频特征和图片特征分开处理，不再将它们统一起来。

有关图6的实验结果显示，与分离的视觉表示相比，联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明，预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力，使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

同时论文还验证了无论是对于图片还是视频，在联合训练中他们能相互受益。

通过联合训练视频数据，对于图片理解任务，可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

在视频理解方面，联合训练的也得到了明显的提升。

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

参考资料：
[1]https://arxiv.org/abs/2311.10122
[2]https://github.com/PKU-YuanGroup/Video-LLaVA

— 完 —

「中国AIGC数据标注产业全景报告（量子位智库出品）」下载

大模型时代到来，以数据为中心的AI开发模式加速走向台前，数据的价值从未像今天这样被充分挖掘。数据标注，正迎来关键洗牌时刻。

量子位智库发布《中国AIGC数据标注产业全景报告》，点击可查看并下载完整报告>> 中国AIGC数据标注全景报告：百亿市场规模，百万就业缺口

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

梦晨发自凹非寺
量子位 | 公众号 QbitAI

在投影之前对齐图像和视频表示

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

在投影之前对齐图像和视频表示

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

梦晨发自凹非寺
量子位 | 公众号 QbitAI