【推荐理由】本文提出了一种自监督技术,直接优化特定物体/物体类别的稀疏图像集合,以获得一致的密集对应关系。
ASIC: Aligning Sparse in-the-wild Image Collections
Kamal Gupta, Varun Jampani, Carlos Esteves, Abhinav Shrivastava, Ameesh Makadia, Noah Snavely, Abhishek Kar
[Google & University of Maryland, College Park]
【论文链接】https://arxiv.org/pdf/2303.16201.pdf
【项目链接】https://kampta.github.io/asic/
【摘要】本文介绍了一种自监督技术,用于构建某个物体/物体类别的图像集合的密集对应关系。以往的研究假设有真实的关键点注释或大量单一物体类别的图像数据集。然而,这两种假设都不适用于世界上存在的长尾物体。作者提出了一种自监督技术,直接优化特定物体/物体类别的稀疏图像集合,以获得一致的密集对应关系。我们使用预训练视觉变换器(ViT)模型的深度特征得到成对的最近邻,作为噪声和稀疏的关键点匹配,并通过优化神经网络将图像集合映射到学习的规范网格,使其成为密集和准确的匹配。在CUB和SPair-71k基准测试中的实验表明,与现有的自监督方法相比,该方法可以在图像集合中产生全局一致性和更高质量的对应关系。
正文完
可以使用微信扫码关注公众号(ID:xzluomor)