微软|SpectFormer:频谱层和多头自注意力层相结合,更好地捕捉图像特征

457次阅读
没有评论

SpectFormer: Frequency and Attention is what you need in a Vision Transformer

Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
[Microsoft]

SpectFormer:频率和注意力对视觉Transformer来说是最重要的

Vinay P.Namboodiri,安特卫普贝尔实验室的IIT Kanpur计算机科学与工程系工作

要点:

  • 动机:旨在探究频谱层和多头自注意力层对Transformer架构的作用,以及如何将它们结合起来,提高图像识别的性能。
  • 方法:提出一种新的Transformer架构SpectFormer,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。通过对比实验发现,SpectFormer在ImageNet上的Top-1准确率比GFNet-H和LiT分别提高了2%,SpectFormer-S在ImageNet-1K数据集上的Top-1准确率达到了84.25%(小型版本的最先进水平),Spectformer-L实现了85.7%的Top-1准确率(与Transformers的基本版本相当的最先进水平)。
  • 优势:SpectFormer将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。实验结果表明,SpectFormer在多个数据集上表现出色,达到了最先进的水平。

提出一种名为SpectFormer的新的Transformer架构,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。

https: //badripatro.github.io/SpectFormers/ 

https://arxiv.org/abs/2304.06446 
微软|SpectFormer:频谱层和多头自注意力层相结合,更好地捕捉图像特征
微软|SpectFormer:频谱层和多头自注意力层相结合,更好地捕捉图像特征
微软|SpectFormer:频谱层和多头自注意力层相结合,更好地捕捉图像特征

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy