谷歌 | MaMMUT：一种简单的联合学习多模态任务的架构

1,696次阅读

【推荐理由】本文用一个简单的联合框架整合了多种多模态任务。该框架具体由一个单独的视觉编码器和一个文本解码器组成。它能够通过一种新颖的两遍方法适应对比和生成学习。尤其是考虑到其规模，它在VQA和视频字幕生成方面展现出有竞争力的结果。

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou , Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
[Google Research]

【论文链接】https://arxiv.org/pdf/2303.16839.pdf

【摘要】语言模型的发展已经从编码器-解码器转向了仅解码器的设计。此外，普遍认为最流行的两个多模态任务，生成任务和对比任务，往往会相互冲突，难以在一个架构中容纳，并且需要针对下游任务进行复杂的适应性调整。本文提出了一种新的训练范式，使用仅解码器的模型进行多模态任务的训练，这在联合学习这些不同的视觉语言任务方面十分有效。这是通过一个名为MaMMUT的简单模型实现的。它由一个单一的视觉编码器和一个文本解码器组成，能够通过文本解码器上的新型两次通行方法来适应对比和生成学习。作者证明了这些多样化目标任务的联合训练是简单、有效的，并且最大化了模型的权重共享。此外，相同的架构使得对开放词汇目标检测和视频语言任务的直接扩展变得容易。该模型能够解决各种任务，同时容量适中。该模型在图像-文本和文本-图像检索、视频问答和开放词汇检测任务上实现了SOTA，超过了更大、更广泛训练的基础模型。考虑到模型的大小，它在VQA和视频字幕生成方面显示出了有竞争力的结果。消融实验证实了此方法的灵活性和优势。

谷歌 | MaMMUT：一种简单的联合学习多模态任务的架构

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR RSS 架构视频设计

发表至：智源

2023年3月30日

微软｜超五千本自动化有声书创建

引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年)

清华李克强院士团队 | 综述：汽车预测性巡航控制及其在云控系统下的典型技术进展与展望

非工程师的LLaMA 2聊天机器人训练指南

微调指南：当GPU资源不足时的有效解决方案

斯坦福AI实验室：从深度学习到长学习

评论（没有评论）

2023 年 3 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 3 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31