佐治亚理工&MetaAI&宾夕法尼亚&斯坦福&伯克利:视觉“基础模型”与具象智能的发展

870次阅读
没有评论

佐治亚理工&MetaAI&宾夕法尼亚&斯坦福&伯克利:视觉“基础模型”与具象智能的发展

本文提出了最大、最全面的关于预训练视觉表示(PVRs)或视觉“基础模型”在身体感知人工智能方面的实证研究。首先,本文创建了CortexBench,包括17个不同的任务,涵盖了动作、导航、灵巧和移动操作等方面。接着,本文系统地评估了现有的PVRs,并发现没有一个是普遍优越的。为了研究预训练数据规模和多样性的影响,本文将来自7个不同来源的超过4,000个小时的自我中心视频(超过5.6M张图像)和ImageNet结合起来,利用Masked Auto-Encoding(MAE)在这些数据的切片上训练不同尺寸的视觉变压器。与之前的工作推断相反,本文发现数据集规模和多样性的扩展并不普遍提高性能(但平均而言确实如此)。本文最大的模型名为VC-1,在平均性能上优于所有先前的PVRs,但也并非普遍占优。最后,本文展示了VC-1的任务或领域特定适应会带来显著的增益,VC-1(适应)在CortexBench的所有基准测试中都可以达到竞争力或更好的表现。这些模型需要超过10,000个GPU小时来训练,并可在本文的网站上为研究社区提供使用。

标题:Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

作者:Arjun MajumdarKarmesh YadavSergio ArnaudJason MaClaire ChenSneha SilwalAryan JainVincent-Pierre BergesPieter Abbeel(引用10万+)Jitendra Malik(引用19万+)Dhruv BatraYixin LinOleksandr MaksymetsAravind RajeswaranFranziska Meier

平台:https://eai-vc.github.io/

佐治亚理工&MetaAI&宾夕法尼亚&斯坦福&伯克利:视觉“基础模型”与具象智能的发展佐治亚理工&MetaAI&宾夕法尼亚&斯坦福&伯克利:视觉“基础模型”与具象智能的发展

佐治亚理工&MetaAI&宾夕法尼亚&斯坦福&伯克利:视觉“基础模型”与具象智能的发展

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy