多模态C4:一个开放的、10亿规模的、与文本交错的图像语料库

796次阅读
没有评论

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text

Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, Yejin Choi

https://twitter.com/ZhuWanrong/status/1648021932410048512

像Flamingo这样的上下文视觉和语言模型支持任意交错的图像和文本序列作为输入。这种格式不仅可以通过交错独立的监督(图像、文本)实例来实现少量的学习,而且还可以实现涉及图像之间互动的更复杂的提示,例如:”图像A和图像B有什么共同点?” 为了支持这个界面,预训练发生在类似于包含交错图像+文本的网络语料库上。

然而,到目前为止,这种形式的大规模数据还没有公开提供。我们发布了多模态C4(mmc4),它是对流行的纯文本c4语料库的扩充,其中包含了图像交错。我们使用一种线性赋值算法,利用CLIP的特征将图片放入较长的文本中,我们发现这个过程优于其他方法。

mmc4涵盖了日常话题,如烹饪、旅行、技术等。对随机抽样的文件进行的人工检查显示,绝大多数(90%)的图像都是主题相关的,而且线性赋值经常选择与每张图像特别吻合的个别句子(78%)。在过滤了NSFW图像、广告等之后,语料库包含了1.03亿份文件,其中包含了5.85亿张图像和43B个英语标记交错排列。

Github: https://github.com/allenai/mmc4

Arxiv: https://arxiv.org/abs/2304.06939 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy