微软|多模态基础模型:从专家到通用助手

643次阅读
没有评论

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao

[Microsoft]

多模态基础模型:从专家到通用助手

  • 本文对现代多模态基础模型进行了全面综述,涵盖了视觉理解、视觉生成、统一视觉模型、与大型语言模型(LLM)的训练/串联等方面。
  • 它倡导从开发特定用途的多模态模型,向能遵循人类意图完成视觉任务的通用助手的转变。
  • 在视觉理解方面,它回顾了有监督学习、图像文本对比学习(CLIP)、仅图像自监督表示学习,以及它们的组合。
  • 在视觉生成方面,它着眼于通过空间/文本控制、更好地遵循文本提示、概念自定义等方面改进人类意图匹配。
  • 在构建通用助手方面,讨论了不使用LLM的统一视觉模型、使用LLM训练视觉模型、以及将视觉模型串联到LLM。
  • 提供了从专业模型向通用视觉助手发展的多模态基础模型趋势观点。

动机:旨在对多模态基础模型进行综合调查,重点关注从专家模型向通用助手的转变,以展示视觉和视觉语言能力的多模态基础模型的分类和演变。 方法:论文通过分类两类核心主题,包括已建立的研究领域和开放性研究领域,来介绍多模态基础模型的学习方法和训练技术。 优势:论文全面综合了多模态基础模型的研究进展,对于想要了解多模态基础模型基础知识和最新进展的研究人员、研究生和专业人士具有重要参考价值。

微软|多模态基础模型:从专家到通用助手

综合调查了多模态基础模型的分类和演变,重点关注从专家模型向通用助手的转变,为研究人员和专业人士提供了基础知识和最新进展的重要参考。

https://arxiv.org/abs/2309.10020 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy