大型语言-视觉模型的视觉提示工程

828次阅读
没有评论

What does CLIP know about a red circle? Visual prompt engineering for VLMs

Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
[University of Oxford]

大型语言-视觉模型的视觉提示工程

要点:

  • 动机:研究如何让计算机视觉模型更好地理解图像,并探讨大型语言-视觉模型存在的潜在伦理问题。
  • 方法:通过在图像上标记(比如画圈)的方式来引导模型更好地理解图像,从而在一些任务上取得了很好的效果,并对模型行为进行了分析,以探究模型的表现原因。
  • 优势:这种标记方法能够在零样本情况下帮助模型更好地理解图像,并在一些任务上取得了很好的效果。此外,该论文还探讨了大型语言-视觉模型存在的潜在伦理问题。

研究了如何通过简单的标记(比如画个红圈)来引导计算机视觉模型(如CLIP)更好地理解图像,从而在一些任务上取得了很好的效果,并探讨了大型语言-视觉模型存在的一些潜在的伦理问题。

https://arxiv.org/abs/2304.06712 
大型语言-视觉模型的视觉提示工程
大型语言-视觉模型的视觉提示工程
大型语言-视觉模型的视觉提示工程

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy