ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

点击下方卡片，关注「集智书童」公众号

在这项工作中，作者对ConvNet和Vision Transformer架构在ImageNet之外的行为进行了深入的比较分析，每个模型在有监督和CLIP训练范式下进行。尽管作者选择的模型在ImageNet准确率和计算需求方面具有相似性，但作者发现它们在很多其他方面存在差异：错误类型、输出校准、可移植性和特征不变性等。

模型特性这种多样性，没有被传统指标捕捉到，这突显了在选择不同模型时需要进行更细微分析的需求。

代码:https://github.com/kirill-vish/Beyond-1Net

1 Introduction

计算机视觉模型景观变得越来越复杂。从早期的ConvNets到Vision Transformer的进步，可用的模型种类已经显著增加。同样，训练范式从ImageNet上的有监督训练到自监督学习和像CLIP这样的图像文本对训练。虽然这一爆炸式的选择表明了进步，但对实践者来说，这也带来了重大的挑战：选择一个适合他们目的的模型。

传统上，ImageNet准确性一直作为评估模型性能的主要指标。自从它引发了深度学习革命以来，这一指标已经取得了显著的进步。然而，这一指标正变得越来越不充分。虽然ImageNet对于衡量模型的通用能力很有用，但它并不能捕捉到由于不同的架构、训练范式和数据产生的细微差异（图1）。当模型开始在ImageNet上过度拟合其独特的特性并达到饱和的准确性时，这一局限性变得更加明显。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

一个特别值得注意的例子是CLIP。尽管它的ImageNet准确性与ResNet相似，但CLIP的视觉编码器在鲁棒性和可移植性方面显著优于ResNet。这激发了对探索和建立CLIP独特优势的研究，这些优势无法通过ImageNet指标单独暴露出来。这说明了分析其他属性可以帮助发现有用的模型。

除了有趣的科学探索外，视觉模型越来越多地集成到生产系统中，这也需要对它们的行为有深入的理解。传统的指标并不能完全捕捉模型处理实际视觉挑战的能力，例如不同的相机姿态、光线条件或遮挡。例如，在像ImageNet这样的数据集上训练的模型，通常在将性能转移到实际应用场景时，会遇到条件和场景显著更丰富的现实世界应用中的困难。

为了弥合这一差距，作者进行了深入的探索，重点关注模型在ImageNet准确性之外的性能。作者分析了计算机视觉领域的四种主要模型：ConvNeXt（一个代表性的卷积网络），每个训练范式中在ImageNet-1K上的近似相同的准确度；Vision Transformer（ViT）（一个具有监督和CLIP训练范式的视觉Transformer）。所选模型在参数数量上相似，并在每个训练范式中在ImageNet-1K上具有近似相同的准确度，以确保公平的比较。

作者的研究深入探讨了各种模型特性，如预测错误类型、泛化能力、学习表示的不变性、校准性能等。值得注意的是，作者关注的是模型在没有进一步训练或微调的情况下所展现的属性，以便指导那些希望直接使用预训练模型的实践者。在作者的分析中，作者发现了不同架构和训练范式之间模型行为的显著差异。例如，CLIP模型相对于ImageNet性能的分类错误较少。然而，监督模型在ImageNet上的校准更好，总体上在ImageNet鲁棒性基准测试上通常更优越。ConvNeXt在合成数据上具有优势，但比ViT更倾向于纹理。

同时，作者发现监督的ConvNeXt在许多基准测试上表现出色，并且具有与CLIP模型接近的迁移性能，这表明架构仍然是关键因素。基于这些发现，很明显各种模型以独特的方式展示其优势，这种优势单一线性指标无法捕捉到。作者的研究强调了需要更详细的评估指标以进行准确、特定上下文的模型选择，并开发与ImageNet无关的新基准。

2 Models

对于分析卷积网络（ConvNets）和Transformer，许多以前的工作将ResNet和ViT进行比较，这对卷积网络不利，因为ViTs通常使用更先进的配方进行训练，实现更高的ImageNet准确度。ViT还有诸如LayerNorm等架构设计元素，这些元素在ResNet发明时并未纳入其中。

为了进行更平衡的评估，作者将ViT与卷积神经网络（ConvNeXt）进行比较，卷积神经网络是卷积网络的一个现代代表，其性能与Transformer相当，并共享许多设计。关于训练范式，作者比较了监督学习和CLIP。监督模型在计算机视觉领域继续展示最先进的表现。另一方面，CLIP模型在概括和可移植性方面表现出色，并提供了将视觉和语言联系起来的有趣的表示属性。自监督模型不包括在作者的结果中，因为它们在作者的初步测试中表现出与监督模型相似的行为。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

这可能是因为它们需要进行最终在ImageNet-1K上的有监督微调，这对于研究许多属性是必要的。所选模型在其各自的训练范式中具有相似的ImageNet-1K验证精度，确保了公平的比较。对于CLIP模型，这表明它们的零样本精度。它们的大小/计算能力和公开性也相似。由于作者使用的是预训练模型，因此无法控制训练期间所看到的数据样本的数量和质量。

对于监督模型，作者使用了一个预训练的DeiT3-Base/16，它与ViT-Base/16具有相同的架构，但采用了改进的训练配方，还采用了ConvNeXt-Base。对于CLIP模型，作者从OpenCLIP中使用了ViT-Base/16和ConvNeXt-Base的视觉编码器。

3 Property Analysis

作者的分析旨在研究可以在不需要进一步训练或微调的情况下评估的模型行为。这种方法对于具有有限计算资源的实践者特别相关，他们通常依赖于预训练模型。虽然作者认识到像物体检测这样的下游任务的价值，但作者的重点是提供具有最小计算需求且反映实际应用中重要行为的属性。基于此，作者将对不同的属性进行详细的分析。

Model Mistakes

在图像分类中，模型错误是将一个对象误分为另一个对象。仅仅识别出错误的物体类别可能并不能为模型改进提供有用的信息。因此，关键在于找出这些错误的具体原因。

例如，某些模型可能对数据分布的某些方面特别敏感，比如纹理变化。在这种情况下，当物体的纹理与它所训练的数据不同的时候，模型可能会一直出错。识别错误类型可以让有针对性地收集和重新训练数据，比黑盒方法具有优势。ImageNet-X数据集提供了关于16种变化因素的详细人机注释，例如姿态、风格等。这使得可以有针对性地分析模型的错误类型。

注释使得可以独立地测量每个因素上的模型错误比例：错误比例因素准确率因素准确率整体其中准确率整体是ImageNet-1K验证的总体准确率，准确率因素是在所有突出显示该因素的图像上的准确率。这个指标衡量了模型在给定因素上的性能相对于其整体性能如何。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

较低的错误比例表示更好的性能，这意味着特定因素上的更高准确率。作者针对所选模型在ImageNet-X上的结果在图2中进行了展示。与监督模型相比，CLIP模型在ImageNet准确性方面的错误更少。图2中的图表显示，CLIP模型的错误比例较小，表明相对于监督模型具有显著优势。然而，需要注意的是，错误比例是对整体ImageNet准确率的相对值，其中在监督和CLIP零样本模型之间存在显著的16%差距。特别是，CLIP模型对形状、子类别、纹理、对象遮挡和较暗的因素具有更高的鲁棒性。CLIP和监督模型之间的差异可能是由于CLIP使用了更加多样化的训练数据。

所有模型在复杂的因素（如遮挡）上表现不佳。对于CLIP模型，与卷积神经网络（ConvNeXt）和视觉Transformer（ViT）相比，有三个因素的性能存在显著差异：多个对象、风格和较暗的因素。对于前两个因素，卷积神经网络的错误比例较高，而对于最后一个因素，它比ViT具有优势。对于监督模型，只有在风格和人遮挡这两个因素上的性能存在差异。除了这些因素外，模型在其他因素上的错误比例大致相同。

所有模型具有高错误比例的六个因素分别是对象遮挡、人遮挡、形状、子类别和纹理。高错误比例的因素通常涉及复杂的视觉场景，这有助于解释为什么模型在这些情况下经常出错。例如，在遮挡中，模型通常由于专注于可见物体而误分类。

纹理是最具挑战性的因素。有趣的是，在作者的分析中，所有模型在纹理因素上的错误比例最大。这指的是物体纹理与其标准外观不同的图像。这表明当前一代模型由于纹理偏差而遭受了很大的损失。在下一节3.2中，作者将提供更多关于形状/纹理偏差的详细分析。

Shape / Texture Bias

与人类通常使用高层次视觉线索进行识别不同，神经网络通常依赖于更脆弱的捷径特征。形状-纹理偏差的研究有助于突出这一现象，通过检查模型在提示冲突图像上的行为，这些图像包含一个来自一个类的形状与另一个类上的纹理重叠（图4）。引入了两个关键指标来量化这种偏差：形状和纹理比例。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

形状比例计算了倾向于表示形状的类的决策的比例，而纹理比例则考虑了倾向于表示纹理的类的决策的比例。这些指标揭示了当它们冲突时，分类器更喜欢形状还是纹理。

卷积神经网络（ConvNets）在纹理方面有很强的偏差，与人类行为不同，而倾向于形状。后续的工作通过比较DeiT-S的第一代和ResNet-50得出ViT相对于ConvNet在纹理方面的偏差较小的结论。值得注意的是，放大Transformer模型已经导致了与人类水平相当的形状偏差。

作者使用提示冲突图像来评估作者的模型中的形状-纹理偏差，并在图3中显示结果。虚线代表所有类别上的平均形状偏差。水平线上的个别标记表示具有标志的特定类的形状偏差。形状比例表示在图表顶部x轴上的形状比例，而底部x轴表示纹理比例。

CLIP模型相对于监督模型具有较小的纹理偏差。在图3中，作者可以观察到ViTs在监督和CLIP模型中相对于ConvNeXt具有更强的形状偏差。这可能是由于卷积操作的局部性质使得ConvNeXt更容易学习与纹理相关的局部特征。然而，对于基于CLIP的模型，ViT和ConvNeXt之间的差距要小得多。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

值得注意的是，CLIP模型中的形状偏差在两种架构上都提高了7%和12%，这促使人们思考进一步扩大训练数据的好处。在[8]中，已经证明了一个22B参数的ViT模型可以达到87%的形状偏差。在作者的分析中，ViT CLIP的最高结果为46.4%，这表明模型大小可能也起着重要的作用。

Model Calibration

除了对捷径特征的脆弱性外，模型表现不佳通常可以归因于校准错误，即模型对其预测的置信度与其实际准确性不匹配。模型校准是一种度量模型预测置信度可靠性的指标。一个模型对预测的置信度可以定义为其输出分布中所有类别的最大概率。

作者感兴趣的是确定模型在其预测中是否过于自信或过于不确定。例如，如果网络认为一组预测有80%的置信度，实际准确性是否大致在80%左右？

校准率可以通过预期校准误差（ECE）来量化。计算ECE的方法是首先根据置信度将预测分为M个区间。例如，一个区间可以包括置信度在50%和60%之间的所有预测，等等。每个区间的置信度和准确性可以表示为中的预测的平均置信度和准确性，即和。

然后，ECE可以定义为以下方式：

其中，表示第i个区间的大小。

模型校准也经常通过可视化来进行评估，包括可靠性图和置信度直方图。可靠性图将预测置信度与准确性绘制成图；一个校准良好的模型应该显示一个点与对角线紧密重合的图形。置信度直方图显示模型预测中不同置信度级别出现的频率。

为了进行平衡评估，作者在两个不同的数据集上呈现校准指标：ImageNet-1K用于分布内数据，ImageNet-R[23]用于分布外数据。作者选择ImageNet-R作为分布外数据集，因为CLIP模型在它上的准确性比监督模型更高。在所有实验中，作者将数据分为M=15个区间。作者在图5中绘制了置信度直方图（第一和第三行），可靠性图（第二和第四行），以及ECE。

CLIP模型过于自信，而监督模型略微不足够自信。在图5中，作者可以观察到CLIP模型在可靠性图中的条形一直低于对角线，而在置信度直方图的最后一条明显高于其他条，这表明CLIP模型在分布内和分布外数据上都过度自信。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

虽然[35]将校准性能主要归因于架构，但作者的结果表明并非如此：尽管CLIP模型在ImageNet-R上的准确率更高，但ECE得分更高，这表明训练数据和目标可能是更重要的因素。作者还强调，作者的结果与CLIP模型[35]的不同可能是因为它们使用了OpenAI[40]的检查点，而作者使用了OpenCLIP[26]的检查点。

在图5的较低部分与ImageNet-R相关，作者可以看到监督模型在置信度直方图的较低置信区间中具有更高的密度（第三行）。此外，这些模型在可靠性图的初始bin中显示出较高的准确性水平（第四行）。这些发现表明监督模型在ImageNet-R上倾向于稍微不足够自信。

监督的卷积神经网络（ConvNeXt）比监督的视觉Transformer（ViT）更易于校准。与[35]的研究结果相反，作者的实验表明，监督的卷积神经网络（ConvNeXt）比其转换器（ViT）对应物更易于校准。这种差异的原因在于[35]关注的是较旧的卷积神经网络架构，如ResNet，而作者使用的是更现代的一个。对于CLIP模型，作者发现视觉Transformer（ViT）仅比卷积神经网络（ConvNeXt）略好一些。

Robustness

模型可能在训练分布的数据上表现出色，但很难将这种表现推广到数据分布的转变[44]。这些转变可以由自然扰动引起，如大气条件（例如，雾、雨），相机噪声或物体位置和方向的变化。模型鲁棒性衡量模型在数据分布变化方面的适应能力。一个鲁棒性强的模型应该在这些扰动下保持高精度。这对于那些可靠性是主要关注点中的应用尤其重要。

作者在几个包含许多不同类型的自然变化和损坏的基准测试上评估了模型的鲁棒性：ImageNet-V2，ImageNet-A，ImageNet-C，ImageNet-R，ImageNet-Sketch，ImageNet-Real和ImageNet-Hard。作者还提供了ImageNet-1K验证准确性供参考（INet-Val）。作者将在图6（上半部分）中展示结果图。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

监督模型在大多数鲁棒性基准测试上优于CLIP。在图6中，作者可以看到在大多数数据集上，监督模型都比CLIP表现得更好，除了ImageNet-R和ImageNet-Sketch。CLIP模型在ImageNet-R和ImageNet-Sketch上的成功表明它们在处理监督模型难以处理的抽象或创造性视觉方面优于监督模型。监督模型的优势很可能与所有鲁棒性数据集与原始的ImageNet-1K共享相同的一组类别有关，这些模型在ImageNet-1K上进行了微调。这突显了开发与ImageNet无关的新鲁棒性基准测试的必要性。ViT和ConvNeXt在有监督和无监督情况下平均表现相似。

Transferability

模型的迁移学习性能表明其适应新任务和训练域之外的数据集的能力。良好的可转移性允许使用最小的额外努力进行快速微调，从而使将模型扩展到各种实际应用变得更加容易。模型在不显著降低性能的情况下适应这些转变的能力是一种有价值的度量标准，可以衡量其效用和泛化能力。例如，考虑一个最初在ImageNet上训练的模型，其主要包含自然图像。测试其可迁移性的方法是评估将这种模型应用于一个完全不同的领域，如医学影像，其表现如何。

为了评估模型的可迁移性，作者采用了VTAB基准。它包括19个不同的数据集，分为三个子类别：自然、专业和结构化。作者在冻结的特征上进行线性探测评估，并遵循[26]的协议。结果如图6（底部）所示。VTAB上的可迁移性结果按子类别分组，如表2所示。

监督的卷积神经网络（ConvNeXt）具有极高的可迁移性，几乎与CLIP模型的表现相媲美。作者发现监督的卷积神经网络（ConvNeXt）在有监督模型方面明显优于视觉Transformer（ViT）。有趣的是，监督的卷积神经网络（ConvNeXt）的表现并不远离CLIP模型，两者具有相同的平均准确性。对于CLIP模型，ViT和监督的卷积神经网络（ConvNeXt）具有相似的平均性能，许多数据集的表现差异不到1%。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

CLIP模型在VTAB的所有三个子组（表2）上表现出更好的可迁移性，这与鲁棒性实验不同。它们的优越性可以归因于更大的预训练数据集。

Synthetic Data

尽管前两个部分专注于鲁棒性和可迁移性基准测试，但这些测试并不能捕捉到最近出现的 promising 研究方向，即在合成数据上训练模型。与人类注释的数据不同，合成数据集允许精确控制相机角度、物体位置和纹理等因素。

PUG-ImageNet 是一个合成数据集，包含 ImageNet 类别的照片般逼真的图像，并为一组因素提供了标签。该图像使用软件引擎生成，允许系统地改变每个对象的姿势、大小、纹理、光线和背景等因素。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

与 ImageNet-X 不同，PUG-ImageNet 的性能通过绝对 Top-1 模型准确性进行衡量。作者为 PUG-ImageNet 中十个不同因素的 Top-1 准确性结果，并在图 7 中提供了它们的平均值。

卷积神经网络（ConvNeXt）在合成数据上优于视觉Transformer（ViT）。有趣的是，ConvNeXt 在 PUG-ImageNet 上除了场景光以外的几乎所有因素上都优于 ViT。这表明：ConvNeXt 在合成数据上优于 ViT。对于 CLIP 模型，ConvNeXt 和 ViT 的差距比监督模型小一些，它们通常比监督模型具有较低的准确性。这很可能与它们在原始 ImageNet 上的较低准确性有关。

Transformation Invariance

在实际场景中，数据通常会经历保持其语义意义的变换或类别。作者的目标是确保模型的表示对这些变换不变。实现各种类型的不变性是有益的，因为它使网络能够很好地泛化到不同的但语义相似的输入，从而提高其鲁棒性和预测能力。在以前的文献[2, 63]中，已经证明神经网络的性能在简单的输入数据变换下（例如，将图像向左或向上平移几个像素）可以高度不稳定。

作者进行了实验来评估三种不变性：比例、平移和分辨率。作者分析了模型在ImageNet-1K验证集上的准确性趋势，作为比例/平移幅度和图像分辨率的函数。在裁剪实验中，根据给定的比例因子，将图像重新缩放。在平移实验中，作者在原始（非缩放）图像空间中调整裁剪位置，然后进行裁剪，沿着图像的较长边进行平移。在分辨率实验中，作者对视觉Transformer（ViT）模型进行插值，以匹配应用的分辨率。

监督的卷积神经网络（ConvNeXt）在变换不变性方面表现出色。结果如图8所示。作者观察到在监督训练下，ConvNeXt 始终优于 ViT。这一趋势对于 CLIP 模型被反转，可能是因为 ConvNeXt-clip 模型被过训练了。总的来说，模型在变换方面的可靠性较高，但在缩放和分辨率变换方面则较为脆弱。

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

对于需要高鲁棒性来应对缩放、平移和分辨率变换的实际应用，作者的结果表明，在监督训练下，卷积神经网络（ConvNeXt）可能是最佳选择。

4 Conclusion

这项研究从多个角度审视了使用监督和CLIP训练的卷积神经网络（ConvNets）和Transformer，除了标准的ImageNet准确性指标。作者发现每个模型都有自己的独特优势。这表明模型选择应取决于目标用例，因为标准性能指标可能忽略关键的细微差别。

此外，许多现有的基准测试都存在局限性，需要进一步改进。这些基准测试是基于ImageNet，这会偏颇评估。开发完全新的具有不同数据分布的基准测试将是评估模型在更广泛、更真实世界代表性的背景下的性能的基础。

对于监督模型，作者发现卷积神经网络（ConvNeXt）在许多基准测试上的性能优于视觉Transformer（ViT）。它更易于校准，对数据变换更具鲁棒性，并显示出更好的可迁移性和鲁棒性。此外，CLIP和监督的卷积神经网络（ConvNeXt）在合成数据上也优于视觉Transformer（ViT）。尽管CLIP模型的ImageNet准确性较低，但它们表现出更高的形状偏差和更好的可迁移性，在领域转变的场景中更可取。

最后，所有模型都犯了大致相同类型的错误，并很难处理纹理。由于作者的分析，作者建议在目标任务分布与ImageNet非常不同的情况下使用监督的卷积神经网络（ConvNeXt），因为这款模型在所有模型中表现最出色。在存在严重的域移的情况下，两款CLIP模型都应能提供有竞争力的性能。

参考

[1].ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy.

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

点击上方卡片，关注「集智书童」公众号

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ViT还是ConvNeXt | 揭秘ConvNet与Transformer谁更强？监督学习与CLIP下性能差异

1 Introduction

2 Models

3 Property Analysis

Model Mistakes

Shape / Texture Bias

Model Calibration

Robustness

Transferability

Synthetic Data

Transformation Invariance

4 Conclusion

参考

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

这个5亿播放的AI视频，邪乎得平平无奇

TRAE推出SOLO模式，业内首个「Context Engineer」来了

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”