北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

AI4Happiness 投稿
量子位 | 公众号 QbitAI

北大联合腾讯打造了一个多模态15边形战士！

以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。

具体来说，研究人员提出了一个叫做LanguageBind的多模态预训练框架。

用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法，将各个模态映射到一个共享的特征空间，实现多模态数据的语义对齐。

使用这种方法，模型在5个数据集上的性能拿下新SOTA，在15个zero-shot检索等任务中取得了显著的性能提升，全面超越ImageBind、OpenCLIP。

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

将各模态与语言绑定

LanguageBind包含三个部分：

多模态编码器（Multi-modal Encoders），语言编码器(Language Encoder)，以及多模态联合学习(Multi-modal Joint Learning)。

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

先来看多模态编码器部分。

除了语言之外的其它模态，研究人员使用24层、1024维的视觉Transformer，具有14的Patch大小。编码器是从OpenCLIP-large初始化的。

深度和红外被视为RGB图像，在通道维度上复制3次与RGB图像对齐。

按照ImageBind的方式，音频数据被转换为持续10秒（128个mel-bins）的频谱图，并进行重复和填充。

Patch masking

为了解决在编码器中处理所有Token的低效问题，研究人员将图像分成补丁，并通过Mask获取一小部分图片序列，按照MAE的方法进行。

LoRA fine-tuning

同时使用LoRA技术来加速微调。对于具有权重矩阵W0∈Rd×k的模态编码器，在学习新的权重矩阵BA时，保持权重矩阵W0不变。

Modality extending

将LanguageBind方法扩展到多个（N个）模态的第一步是将数据处理成令牌序列。随后，参数将从OpenCLIP进行初始化。然后通过令牌屏蔽和LoRA微调来训练不同模态的编码器，同时保持语言编码器冻结。最后，将该模态与语言特征空间对齐。

再来看看语言编码器以及多模态联合学习部分。

对于语言编码器，研究人员使用了一个12层的transformer模型，维度为768，初始化来源于OpenCLIP。

对于给定的文本，他们首先使用BPE分词器将单词分割成相对常见的子词。每个子词对应一个唯一的标记，这些标记在一个词嵌入层内嵌入。最终，这些标记被语言编码器编码，以获得文本对数：

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

其中L表示序列的长度。为了确保跨不同模态的对齐，研究人员采用了对比学习原则。

这种方法的目标是增加配对数据的相似性，将它们带到相同的语义空间，同时减小不配对数据的相似性。研究人员利用对比学习将各个模态与语言绑定在一起。

构建高质量数据集

此外，研究人员还创建了一个名为“VIDAL-10M”的高质量数据集，其中包含1000万个具有对齐视频-语言、红外-语言、深度-语言、音频-语言的数据对，是第一个具有深度和红外模态的大规模视频多模态数据集。

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

数据集构建方法如下：

△VIDAL-10M 构建框架

第一步是生成搜索词数据库，这个过程中，研究人员设计了一种独特的搜索词获取策略，利用来自各种视觉任务数据集的文本数据，包括标签和标题，以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频，并进行一系列过滤处理，以确保数据集的质量和准确性。

这个过程中，研究人员使用了多种过滤方法，包括基于文本的过滤、基于视觉与音频的过滤，以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成，以及多视角文本生成和增强。

在空间信息增强方面，研究人员采用了OFA模型生成多个关键帧描述，以提升视频内容的空间表达质量。

同时，在时间信息增强方面，将视频内容、标题以及Hashtag标签输入到mPLUG-owl模型中，以获取更为精炼和丰富的时间维度描述。

最后，研究人员运用ChatGPT模型对文本描述进行进一步细化和增强。

综合而言，多视角文本增强涵盖了标题、标签、关键帧描述以及视频描述等多个组成部分，为视频内容提供了全面且详尽的描述。

多个测试拿下SOTA

在测试阶段，大量的实验验证了VIDAL-10M数据集和LanguageBind方法的有效性，在视频、音频以及其它模态理解任务中取得了显著的性能。

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

LanguageBind在四个数据集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%，在MSVD上比 InterVideo高出 8.8%，在DiDeMo上比InterVideo高出 6.3%，在ActivityNet上比InterVideo高出 4.4%。

值得注意的是，InterVideo采用了更广泛的训练数据，正表明LanguageBind的有效性。

△Zero-Shot视频-文本检索结果

视频-语言、红外-语言、深度-语言和音频-语言Zero-Shot分类，在所有数据集上的准确率均优于ImageBind、OpenCLIP：

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

Zero-Shot音频-语言检索性能同样优越：

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

论文链接：https://arxiv.org/pdf/2310.01852.pdf

— 完 —

「量子位2023人工智能年度评选」企业申报倒计时！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！扫码参与评选 ⬇️

MEET 2024大会即将开启报名！点此了解详情。

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

AI4Happiness 投稿
量子位 | 公众号 QbitAI

将各模态与语言绑定

构建高质量数据集

△VIDAL-10M 构建框架

多个测试拿下SOTA

△Zero-Shot视频-文本检索结果

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

AI4Happiness 投稿量子位 | 公众号 QbitAI

将各模态与语言绑定

构建高质量数据集

△VIDAL-10M 构建框架

多个测试拿下SOTA

△Zero-Shot视频-文本检索结果

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

AI4Happiness 投稿
量子位 | 公众号 QbitAI