微软计算机视觉首席算法专家、首席研究经理共同提出MM-REACT,为ChatGPT的多模态推理和行动提供提示

1,404次阅读
没有评论

微软计算机视觉首席算法专家、首席研究经理共同提出MM-REACT,为ChatGPT的多模态推理和行动提供提示

本文提出MM-REACT,一个将ChatGPT与视觉专家池集成在一起的系统范式,可以用于实现多模态推理和动作。在本文中,作者定义并探索了高级视觉任务的综合列表。这些任务很容易解决,但可能超出现有视觉和视觉语言模型的能力。为了实现这种高级视觉智能,MM-REACT引入了文本提示设计,可以将文本描述、文本化的空间左边、图像视频等密集视觉信息表达为对齐的文件名。MM-REACT的提示设计允许语言模型接受、关联和处理多模态信息,从而促进ChatGPT和视觉专家的协同组合。零样本实验证明了MM-REACT在处理感兴趣的特定能力方面的有效性,以及它在需要复杂视觉理解的不同场景中的广泛应用。此外,作者讨论并比较了MM-REACT系统范式通过联合微调扩展多模态场景语言模型的替代方法。

论文地址:https://arxiv.org/abs/2303.11381

项目地址:https://multimodal-react.github.io/

开源代码:https://github.com/microsoft/MM-REACT

作者:Zhengyuan YangLinjie LiJianfeng WangKevin LinEhsan AzarnasabFaisal Ahmed, Zicheng LiuCe LiuMichael ZengLijuan Wang

微软计算机视觉首席算法专家、首席研究经理共同提出MM-REACT,为ChatGPT的多模态推理和行动提供提示

微软计算机视觉首席算法专家、首席研究经理共同提出MM-REACT,为ChatGPT的多模态推理和行动提供提示

 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy