DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

353次阅读
没有评论

点击下方卡片,关注AI视界引擎」公众号

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

雾气中的图像会受到降质的影响。去雾这样的图像是一个棘手且不恰当的问题。为了减轻雾气的影响并生成无雾图像,已经提出了许多基于先验和学习的策略。许多传统方法受到其对场景深度缺乏意识以及无法捕捉长程依赖性的限制。

在这篇论文中,提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络:在第一个网络中,网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入,通过卷积层处理后,再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。

实验结果,包括几个定量指标,证明了所建议方法的有效性和可扩展性。

1 Introduction

在恶劣的天气中,常见的大气现象是雾气,它阻碍了自然场景的可视度(图1)。这源于光线在通过一系列微小的悬浮颗粒时发生吸收或散射。因此,观察到的场景具有降低的亮度、异常的对比度、色度和饱和度等人工制品。此外,这个问题由于它对复杂视觉任务模型性能的广泛影响,如卫星图像和自动驾驶,而引起了广泛关注。

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

这项工作的目的是近似给定其雾气的图像。通常,无雾图像是通过大气散射模型进行估计的。[4]。数学上表示为:

在这里,对于像素坐标是带有雾气的观测图像,是其无雾的对应物,等于全局大气光,是介质的透射矩阵,进一步表示为:

是大气散射的系数,是场景的深度。由于未知参数的数量,结果问题是不恰当的。传统上,先验用于近似的值[5, 6, 7]或在一些实验中,将直观地等同于常数。尽管取得了显著的结果,基于先验的方法是基于某些假设和估计的,这使得它们有时无法充分去雾,并在无雾图像中引入如不自然对比和颜色块等伪影。

与此相反,基于学习的方法依赖于训练过程,在该过程中,模型不是依赖自我编写的先验来估计,而是学习一个映射,给定大量的带有雾气的图像及其去雾后的对应物。最近,视觉Transformer (ViT) 在高级视觉任务中超越了大多数传统基于学习的方法。

本工作提出了一种在注意力网络中结合卷积神经网络(CNN)和残差网络的图像去雾Transformer,其输出是无雾图像。输入到CNN的是受到雾影响的图像。该网络近似输出传输矩阵,其与受到雾影响的图像()的比例作为残差网络的输入,输出是雾输入和潜在无雾图像之间的残差。

值得注意的是,这种网络不需要近似全局大气光,因此对它引起的异常免疫。然后,注意力模块使用考虑图像全局上下文和场景深度的Transformer编码器来推理残差图像的通道属性。最后,空间注意力被近似,特征图被拼接以帮助估计最终的脱雾图像。

2 Related Work

本节讨论了与图像去雾相关的方法的简洁概述。它广泛地分为依赖于先验和基于学习的方法。

基于先验的方法关注于计算传输矩阵和全局大气光,并假定场景,使用手动定制的先验。Tang等人试图研究有助于去除雾气的最佳特征。他们得出结论,在去雾过程中,暗通道特征是最重要的特征。尽管训练模型是基于合成图像的块,但在实际数据上,模型表现良好。He等人估计了一个暗通道先验,并结合成像模型来估计单张图像中的雾深及其后续的去雾。这里的一个关键学习是,在雾气图像的一个或几个颜色通道中,存在像素低强度。作者还展示了块大小如何显著影响输出。Fattal等人提出了一种新的去雾模型,除了传输图外,还考虑了表面阴影,基于假设它们是正交的。

类似假设用于确定雾气的色度。尽管使用了来自不同来源的图像,但模型在去雾输出上的平均绝对误差小于7%。Meng等人利用传输图的边界极限以及基于L1范数的上下文正则化来建模图像去雾的优化问题。此外,这个函数基于对场景的少量假设进行建模,使其更具容错性。Zhao等人将雾气图像分成较小的块,然后按块进行传输图的局部估计。进一步优化结果在输出图像中实现了更精细的细节和明确的边缘。值得注意的是,由于这些方法依赖于手工制作的先验和场景约束,它们表现出较少的容错性和灵活性。

深度学习在图像去雾任务中的应用取得了显著的结果。在这些基于学习的方法中,模型在训练图像时学习一组参数和输入-输出映射,然后使用学习到的参数去雾其余图像,通常通过估计一个介质传输图。在Ren等人[17]中,使用一个粗糙的传输图网络学习从单个雾气输入图像到相应传输矩阵的映射。然后,另一个神经网络帮助优化无雾输出。Cai等人[18]使用一个可训练的基于CNN的模块近似传输图,其层被设计成提取先验使用特征。最后,使用双边正则化线性单位(Bilateral Rectified Linear Unit)提高输出质量。Zhang等人[19]提出的具有端到端图像去雾模块,其中DenseNet启发式编码器-解码器帮助近似传输矩阵,同时与大气光和去雾任务共同推理。尽管进一步使用判别器可以提高无雾图像的质量,但生成的输出具有低对比度。Li等人[20]提出了一种基于残差学习的去雾网络。

在这里,模型首先近似一个传输图,然后将其与输入图像的比例生成残差输出。此外,网络无需估计大气光的值。作者建议这种方法可以避免无效参数的影响。尽管如此,模型在处理速度上较慢,对天空明亮区域的去雾效果不佳。在[21]中,Gao等人使用CNN和视觉Transformer进行图像去雾。他们声称尽管CNN在先验方法中表现更好,但在详细信息检索方面落后于视觉Transformer。然而,他们没有考虑图像的全局特征,在暗场景和深度变化方面表现较弱。Li等人[22]提出了一种两阶段的图像去雾模块,其中第一阶段使用Swin Transformer和CNN,第二阶段提取局部特征,同时使用注意力机制。然而,去雾真实世界图像的计算成本很高。此外,网络的复杂性也会降低训练速度。

尽管基于学习的方法优于基于先验的方法,但用于进一步提高学习基网络性能的方法增加了网络的深度,导致添加更多的 Short-Cut ,从而增加网络复杂性,在某些情况下,也可能引入噪声。因此,通过包括残差网络,提出了一种可扩展的模型,当与视觉Transformer结合使用时,可以获得令人鼓舞的结果。

3 Methodology

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

所提出的去雾方法的整体网络架构如图2和图3所示。该方法通过两个模块对输入图像进行去雾:第一个模块是残差网络,第二个模块是基于视觉Transformer的注意力模块。

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

值得注意的是,尽管残差网络本身可以提供去雾图像,但由于输出并非完全无人工制品和颜色退化,因此结果令人不满意。此外,在本文中使用的质量指标上,该网络表现不佳。将其与注意力网络堆叠可以提高去雾性能,结果部分的各种质量指标将证明这一点。本文将讨论两个模块的工作原理和数据集描述。

Dataset

本文使用了NYU2深度数据集来训练模型,并使用SOTS和HSTS数据集来测试它。在实际应用中,存在大量雾气和去雾图像对的短缺,以便有效地训练去雾模型。特别地,由于NYU2数据集包含清晰的无雾图像及其深度图,使用这些深度图来获取传输矩阵,并将全局大气光赋予常数值,以最终生成所需的雾气数据集。作者将此应用于NYU2数据集中的1000张图像,并将其缩放到16 x 16 x 3,以便加快训练。

尽管训练和测试图像是在具有变化的室内场景中拍摄的,但模型在室外设置中也表现出色。为了测试模型,作者从[24]中分别选取了400和20张图像。其中,SOTS中的图像是在室内设置中拍摄的,而HSTS中的图像是在户外拍摄的。

The Residual Network

在此之前,图像去雾工作中对传输矩阵和全局大气光的近似关注度增加。不稳定的场景条件使得这些变量的估计变得复杂。解决了方程(1),以便网络学习的值。这有助于避免由于对的错误估计而对网络架构造成的异常。

此外,残差学习的优势在于,当用于描述近似身份映射时,残差学习的影响优于直接学习。将方程(1)两边除以,作者得到:

方程(3)可以写成:

在所提出的工作中,经过CNN处理,输出是传输矩阵的近似值。他们的比率是残差网络的输入,目的是生成残差图像。无雾图像可以表示为:

在这里,

损失函数的描述如下:

该函数训练,使得网络估计的残差图像与期望值之间的平均平方误差最小。残差图像同时通过两个卷积层,核大小分别为,分别产生3和9个输出通道。这些通道与残差图像和输出一起输入到注意力模块。

The Attention Module

本文提出的注意力网络灵感来自于CBAM,该网络依次推理通道和空间注意力。然而,为了生成这些注意力图,CBAM依赖于操作如最大池化和平均池化。用视觉Transformer来演示其有效性,推理空间注意力。使用注意力模块的目的是增强并进一步去雾残差网络的输出,同时考虑图像的全局上下文和场景深度。

在这里,Transformer作为输入,接受一维的 Token 序列。在前一步中连接输出的二维块被分割成分辨率为的二维块,然后被展开成一维的 Token 。

数学上,具有个通道和尺寸的图像被展开成的块,其中表示这样的块的总数。由于在此处使用的潜在向量大小不随层数变化,所有这些 Token 都被线性投影到常数维。

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

此外,为了保留这些块的位置信息,使用了可学习的位置嵌入。所使用的Transformer的详细架构如图4所示。转换器的最终输入向量是:

Transformer编码器包括多个头的自注意力(MHA)和多层感知机(MLP)模块,这些模块嵌入在相互交替的正则化(LN)层之间。对于第个Transformer:

作者的方法利用全局上下文自注意力模块与传统的局部自注意力机制相结合,实现对空间交互的有效和高效建模,既包括长程范围,也包括短程范围。如图4所示,局部 Token 嵌入来自输入特征图的块投影。

为了生成全局 Token ,作者受到[26]的启发。网络然后利用局部 Query 进行通用的编码器操作,使用全局键和值。最后,对输出 Token 进行平均池化,得到通道注意力图。

此外,最大池化和平均池化以类似CBAM的方式生成空间注意力图。由通道和空间注意力模块生成的特征图被拼接,得到,然后进行最终特征映射上的卷积操作。所有卷积操作如图3所示。在这里,中减去,得到最终的脱雾输出。实验结果证明了该方法的差异。

Implementation Details

由于缺乏大量雾气和无雾图像对,作者使用了NYU2深度数据集来估计雾气和无雾图像。与场景深度近似的传输图和常数全局大气光值有助于这一估计。输入到模型是一个大小为的雾气图像。通过第一个卷积层后得到特征图的大小为。此外,切片和元素层将其转换为特征图大小为。一个最大池化层和ReLU激活用于生成传输图

在低分支中,ReLU在每个层后应用。在这里,使用了13个卷积加批标准化层,整个过程中应用滤波器。残差网络的输出经过大小为的卷积层同时处理,特征图与残差图像拼接后再通过注意力模块,该模块的详细结构如图4所示。第一个Transformer的输出与使用(最终层也是)和核的层相拼接。最终的增强残差输出然后从中减去,得到无雾输出

4 Results

所提出的架构在单个Nvidia RTX 3090 Ti GPU上训练了1000张来自NYU2数据集的图像,共150个周期,批处理量为16。

为避免过拟合,应用了随机裁剪,水平翻转和随机旋转等数据增强技术。对于测试模型,分别从SOTS和HSTS中选取了400和20张图像。与Fattal的[14],DehazeNet[18]和Gao等人[21]等许多最先进的图像去雾技术进行了对比。除了视觉结果外,还使用了PSNR,SSIM和FSIM等三个指标来评估恢复的脱雾图像的质量,并比较了不同方法的相对性能。这些指标的值越高,表示该恢复方法的性能越好。数学上,PSNR,SSIM和FSIM的定义如下:

在这里,是图像之间的平均平方误差,等于像素的最大可能值。

其中,分别衡量了两幅图像的平均亮度、平均对比和相关系数之间的距离。

位置的最大相位一致性由分量表示,代表整个图像的空间域。表1和表2分别给出了在SOTS和HSTS数据集上使用PSNR,SSIM和FSIM的平均值进行定量评估。

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

在HSTS数据集上的注意力模块。测试集被用来计算由这些结构形成的架构的平均SSIM和PSNR。所提出的模块报告的SSIM和PSNR比仅使用残差模块的模型提高了6.27%和11.43%。因此,这项研究证明了使用注意力网络和残差模块对于有效图像去雾的重要性。

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

5 Conclusion and Future Scope

本文提出了一种基于注意力模块的残差学习去雾网络。通常,获取无雾图像的工作依赖于从大气散射模型方程中近似传输矩阵和大气光。估计这些变量在问题欠定的情况下容易出错。在本文中,残差模块学习这些变量。通道注意力网络和Transformer池化的空间图进一步增强了残差 Backbone 网络的性能。

在NYU2,SOTS和HSTS数据集上的实验表明,所提出的方法的鲁棒性可以通过视觉结果和使用PSNR,SSIM和FSIM的定量评估进行验证。该方法不仅能够以很高的相似度估计与 GT 值的输出,而且还能做到不引入任何伪影。在未来,作者打算生成一个在室内和室外设置中捕捉的更大数据集,以便训练一个足够实时去雾的鲁棒网络。

参考

[1]. DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing

DHFormer | 残差模块+Transformer的设计让世界一下就变得清晰了

点击上方卡片,关注「AI视界引擎」公众号

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy