MiCo团队投稿

量子位 | 公众号 QbitAI

GPT-4o掀起一股全模态（Omni-modal）热潮，去年的热词多模态仿佛已经不够看了。

要构建全模态智能，意味着能够理解任何模态并学习通用表示 (Universal Representations)。

现在，港中文、中科院等提出了一种大规模的全模态预训练范式，称为多模态上下文MiCo（Multimodal Context），它可以在预训练过程中引入更多的模态，数据量，模型参数。

借助 MiCo，团队预训练的模型在多模态学习中表现出极为令人印象深刻的性能，在目前主流的三大类任务上的评估结果显示出：

10种不同模态的单模态感知基准。
25种跨模态理解任务，包括检索、问答、描述。
18种多模态大型语言模型基准，MiCo取得了37项最强性能的记录。

大规模全模态预训练

在AI的发展历程中, 大规模的预训练已经逐渐成为一种非常有前景的途径来实现通用智能（譬如大规模训练的GPT-4o, LLaMA, Stable Diffusion）。

其中图文对比学习是社区最有影响力的预训练方法之一，比如，CLIP构建起了数百万的图文数据对来实现跨模态的对比学习。

研究者将这样的对比学习范式推广到了更多的数据模态上（音频，点云）同时也实现了更深入的语义理解（LLaVA, VideoChat）。

但是在这多模态与AIGC的时代里，越来越多的数据模态（比如，音频，3D内容等）被广泛使用时，仅限于图文预训练的基础模型带来了包括多模态错位、误解、幻觉和偏见放大等问题，这些难题都阻碍了连贯的多模态理解（coherent multimodal understanding）。

因此，团队希望提出一种能适用于全模态（不局限于仅图文音视频3D内容）的大规模预训练方法，如图所示，团队将视频与相配对的音频、文字描述、深度还有法线进行联合预训练。

如何设计全模态预训练中的神经网络结构？

参考人脑中多模态认知的过程，如下图所示，根据理查德·梅耶的多媒体学习认知理论（Richard E Mayer. Multimedia learning. In Psychology of learning and motivation, volume 41,305 pages 85–139. Elsevier, 2002.），人脑对耳朵和眼睛的感知内容（图/文/视频/音频/3D）有两个不同的通道来处理他们的感觉记忆。

感觉记忆通过文字将这些多模态信号与先验知识整合在一起，将新的多媒体信息转化为长期记忆。

由此团队能推断：1）大脑中的多媒体信号共享感知通道，2）文字在大脑中充当推理接口。

受此启发，团队将不同的模态分为两类：“知识模态”和“接口模态”。

知识模态主要来自原始传感器，以不同的形式贡献知识。例如，图像和深度图提供视觉知识，而音频和视频提供听觉和时空知识。人类语言模态本质上更为抽象，自然地作为了接口模态，促进大脑学习、推理和知识的协调。

为此，团队设计了一个全模态学习架构（详细严谨的结构设计见文3.2），如上图 (b) 所示，它有两个不同的分支：一个用于知识模态，一个用于接口模态，即自然语言。知识和界面模态通过一种新颖的生成推理方法进行对齐（见方法3.4）。

大规模的全模态预训练算法：多模态上下文与多模态尺度定律(Scaling Law)

“上下文”这一概念在本文指的是在注意力机制为序列中的每个标记分配一个唯一向量来强化了位置之间的潜在关联。

不同的模态（例如，文本、图像、音频）提供了互补信息，因此学习多模态的上下文可以更全面、细致地理解数据，还可以利用每种模态的优势，引导模型理解不同类型信息之间的交互。因此，团队寻求构建跨越不同模态的上下文关系，使得模态之间能够相互增强（见下图）并将学习能力扩展到全模态。

多模态配对数据中的多模态上下文

首先团队构建了多模态配对数据的数据集（图像，深度，法线，图像的配对文字，音频，音频配对文字，视频，视频配对文字）。

然后使用一个全模态编码器(ViT) 提取多模态特征，然后使用文本编码器提取文本特征。通过自上而下的设计构建多模态上下文关系：

对于整个多模态Embeddings，它们共享一套位置编码，以构建跨越不同模态的融合上下文关系。
2.然后，对于每个特定模态的上下文，它们通过不同的模态标记来指示模态类别。
在同一模态上下文中，团队使用单独的上下文编码构建单一模态上下文关系（详见原文）上下文编码取决于特定模态的样本长度。

同时，不同模态的配对文本内容可以简单的拼接起来，其位置编码同样是共享的：

多数据集中的多模态上下文：图-文/音频-文字/视频-文字等

团队提出的范式还可以利用现有的大规模文本-图像、文本-音频和文本-视频数据集，共同预训练模型来学习通用表征。给定数据集图文/音频-文字/视频-文字数据集，每对数据拥有局部的简单的上下文，例如，图文数据对在CLIP中仅对应一个简单的上下文，这可能会限制模型学习表征（工程中增大Batch Size来缓解）。团队提出通过跨数据集的联合采样，使用采样编码(Sampling Embeddings) 标记同一个数据集的配对数据，再层次化地在多数据之间构建多模态上下文。

通过这种方式，团队成功地结合了现有的多种跨模态数据集，通过构建更通用和复杂的多模态上下文（见上述公式）来预训练模型，从而实现更好的泛化学习能力、更完善的模态扩展性和数据扩展性来超越现有的预训练方法。

实验结果

10种单模态感知基准: 7项SOTA

25种跨模态检索、问答、描述基准: 20项SOTA

18种多模态大模型问答基准：10项SOTA

结论

在本文中，团队提出了一个新的大规模预训练框架 MiCo，用于训练具有全模态理解能力的基础模型。通过大规模的实验，团队得出结论，全模态学习的关键是模拟人脑的多模态认知过程。在 MiCo中，团队使用RGB图像、深度和法线图来模拟人类视觉认知的基本视觉感知能力、距离空间感知和几何感知。

此外，文字描述、音频和视频提供先验知识、听觉感知，时空感知能力，有效地提升了模型的对于多模态信息的理解能力，在未来的工作中，团队计划通过结合其他更多模态来继续增强全模态联合预训练，包括光流、IMU 数据和事件文件等。

团队相信MiCo中多模态上下文预训练算法是人工智能模拟人脑多模态认知的重要尝试，团队期待它能够启发未来的工作，开发更强大的全模态基础模型。

项目网站：https://invictus717.github.io/MiCo/
开源代码：https://github.com/invictus717/MiCo
Hugging Face模型：https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K

2024 年 6 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示

大规模全模态预训练

如何设计全模态预训练中的神经网络结构？

大规模的全模态预训练算法：多模态上下文与多模态尺度定律(Scaling Law)

多模态配对数据中的多模态上下文

多数据集中的多模态上下文：图-文/音频-文字/视频-文字等

实验结果

10种单模态感知基准: 7项SOTA

25种跨模态检索、问答、描述基准: 20项SOTA

18种多模态大模型问答基准：10项SOTA

结论

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC