Weakly-supervised contrastive learning-based implicit degradation modeling for blind image super-resolution
10.1016/j.knosys.2022.108984
摘要:
基于深度学习的图像超分辨率(SR)方法因其出色的性能而引起了越来越多的关注。然而,这些方法大多假设低分辨率(LR)观测值的退化是固定的和已知的(例如,双三次下采样)。然而,在实际情况下并不总是如此。此外,LR图像的固有退化与假设的退化之间的不匹配通常会导致伪影。因此,必须超越理想化的假设,使SR模型适应各种退化。为了实现这一目标,我们提出了一种基于对比学习的隐式退化建模(IDMBSR)的盲图像超分辨率方法。由于显式估计退化参数具有挑战性,因此从每个LR图像中学习表示来对其退化进行建模并区分变体退化,从而指导后续重建以实现图像特定的SR。由于LR图像没有表示标签,因此使用对比学习在退化参数的帮助下训练注意力增强编码器进行退化编码,以进行更有效的模型训练。此外,为了使重建过程适应具有不同退化的LR图像,开发了一种退化引导的SR网络,其中退化表示通过将数据驱动的变换应用于中间特征,从头到尾自适应地影响SR过程。受益于退化表示编码器和退化引导SR网络的组合,IDMBSR可以适应各种LR观测,而无需事先了解其退化情况。实验结果表明,IDMBSR以更少的参数和更高的效率优于几种最先进的盲SR方法。
研究内容:
- 我们提出了一种有效的盲SR框架,该框架由一个用于隐式退化建模的编码器和一个退化表示引导的深度超解析器组成。退化编码器和超级解析器的组合使我们的方法能够在不事先了解其退化的情况下超级解析变体LR观测值我们提出了一种基于弱监督对比学习的隐式退化建模方法,从而获得图像特定的退化表示并区分变体退化。由于退化表示没有标签,因此使用对比学习在退化参数的帮助下训练注意力增强的退化编码器。
- 我们开发了一种退化表示引导的SR网络,其中退化表示通过将数据驱动的变换应用于中间特征图,从头到尾自适应地影响SR过程。这使得所提出的方法能够适应不同的LR图像,并实现更好的重建性能和泛化能力。
- 大量实验证明了所提出的盲SR方法在合成图像和真实世界图像上的有效性。结果还表明,在重建性能和模型复杂性方面,它优于最先进的方法。
直观地说,退化编码器应具有以下属性:(i)从遭受类似退化的LR图像中提取类似的表示。(ii)从遭受不同退化的LR图像中提取可微分表示。(iii)退化差异越大,表示之间的距离就越大。
图2。所提出的盲图像SR网络IDMBSR的架构。IDMBSR由隐式退化建模网络(IDMN)和退化引导超分辨率网络(DGSRN)组成。给定LR图像y,IDMN旨在将y编码为向量d以表示其退化,而DGSRN旨在根据y及其退化表示d产生HR估计xˆ。具体来说,IDMN是一种注意力增强编码器。DGSRN主要由LR图像特征提取、退化引导特征变换和HR图像重建三部分组成。DGSRN中的退化引导特征变换网络包含五个级联的DGFTG,每个DGFTG由五个级联DGFTM组成。在DGFTM中,退化表示用于调制图像特征,从而使SR网络适应不同的LR图像和退化。
在这项工作中,遭受相同退化的图像块被视为阳性样本。相反,被不同降解扭曲的斑块被视为阴性对应物。
本节首先概述了拟议的IDMBSR,然后描述了每个组件的详细信息。
3.1. 概述
如图2所示,所提出的IDMBSR是一个两阶段框架,由隐式退化建模网络(IDMN)和退化引导超分辨率网络(DGSRN)组成。IDMN负责表征LR图像y所遭受的退化,而DGSRN在退化表示d的指导下从y产生HR估计xˆ。IDMN和DGSRN之间的协调使IDMBSR能够灵活地超分辨率具有未知退化的LR图像。
3.2. 基于弱监督对比学习的隐式退化建模
对于所提出的IDMBSR,退化建模的作用是区分变体退化,以有利于后续SR。由于获取显式退化参数(如模糊核和噪声水平)非常具有挑战性,我们选择沿着[79]建议的路线从LR图像中学习区分性退化表示。直观地说,退化编码器应具有以下属性:(i)从遭受类似退化的LR图像中提取类似的表示。(ii)从遭受不同退化的LR图像中提取可微分表示。(iii)退化差异越大,表示之间的距离就越大。基于这些考虑,我们提出了基于弱监督对比学习的隐式退化建模策略,如图3所示。具体来说,由于LR图像的退化表示没有标签,因此进行对比学习来训练退化编码器。对比学习在无监督表示学习中得到了广泛的应用,其中鼓励查询样本的表示吸引积极的对应物,同时排斥消极的对应物。在这项工作中,遭受相同退化的图像块被视为阳性样本。相反,被不同降解扭曲的斑块被视为阴性对应物。与不考虑负样本差异的传统对比学习不同,我们提出根据查询图像与其负对应物之间的退化程度差异来影响表示学习,从而使学习到的表示更好地表征图像退化。虽然LR图像的劣化表示没有真正的标签,但它们的劣化信息被用作模型训练中表示学习的指导,这就是为什么所提出的方法被称为弱监督模型。与传统的无监督对比学习相比,所提出的退化信息驱动的弱监督模型具有更好的性能。下文将更详细地介绍所提出的退化建模策略。
如图3所示,y1、y2和y3是三幅因不同退化(例如,不同的模糊核宽度δ和噪声水平σ)而失真的LR图像。假设每个图像中的劣化是相同的。如上所述,如果图像块与查询样本一样失真,则被视为对比学习的正对应物,否则被视为负对应物。因此,给定从y2中提取的任意图像块yq作为查询样本,来自同一图像y2的其他块被视为yq的正对应,它们被表示为yq_p。相反,从y1和y3中提取的块被视为由yq的负对应,它们表示为yq1n。如图3所示,查询、正样本和负样本由劣化编码器编码,以获得相应的劣化表示,即dq、dq_p和dq_n。根据[80,81],为了提高学习到的退化表示的质量,在计算对比损失之前,对它们应用了可学习的非线性变换TNT(·)
虽然InfoNCE损失使负样本的表示与查询的表示不同,但它没有考虑差异的程度。这可能会降低表示对降级的敏感性。如图3所示,y1和y3的退化(模糊核宽度δ和噪声水平σ)与y2不同。因此,对于从y2中提取的查询补丁,y1和y3中的图像补丁是负对应。总的来说,查询的退化表示应该排斥负样本的退化表示。然而,值得注意的是,查询图像与其负对应物之间的退化程度不同。例如,与y1(δ=0.2,σ=15)相比,y3(δ=2.0,σ=5)的退化更接近y2(δ=1.8,σ=5)。因此,尽管y1和y3的负样本在退化方面与y2提取的查询补丁不同,但查询和y3负样本之间的差异程度相对较低。直观地说,如果样本的退化不完全相同,但与查询接近,它们的表示自然应该有一些相似之处,尽管这个样本被认为是负的。此外,与对查询降级较近的负样本相比,降级差异较大的负样本的表示应该与查询的表示有更大的距离。因此,有必要在两个表示之间的差异程度和相应劣化之间的差异度之间建立联系。更具体地说,正如前面提到的第三个属性,最基本的原则是退化差异越大,表示之间的距离就越大。也就是说,退化差异被认为是训练中学习表征的弱监督信息。为了实现这些目标,我们提出了一种加权信息NCE损失,以弱监督的方式训练退化编码器,其中退化差异的程度被用作退化表示的指导信息,如
其中{wj}Nneg j=1表示相应负样本{r−j}Nneg j=1的退化相关权重。更具体地说,wj测量查询图像与其负对应图像之间的劣化差异程度。这样我们将表征学习与退化信息相关联,
从而使学习到的退化表示更加合理和有区别。例如,两个样本的降解差异越明显,权重就越高,从而使它们表示的点积越小。也就是说,这两种表示方式变得更加可区分,这将有利于后续的退化导向SR。如方程式(3)所示,模糊和噪声是退化的两个关键因素。因此,它们确定了等式(6)中的权重{wj}Nneg j=1。根据之前对盲SR的研究[58,79],我们的主要考虑因素是高斯模糊和噪声。相应地,核宽度δ和噪声水平σ分别用于表征图像中的高斯模糊和噪声。因此,两个图像之间的劣化差异程度,即wj,可以从中计算出来。具体而言,拟议加权信息NCE损失中使用的权重wj定义为
其中δ和σ分别表示查询的核宽度和噪声水平。同样,δ−j和σ−j表示与r−j对应的负样本的核宽度和噪声水平。总体而言,方程式(7)根据模糊核宽度和噪声水平来衡量查询样本与其负对应样本之间的劣化差异程度。差值越大,wj越大。通过方程式(6)中提出的加权InfoNCE损失和方程式(7)中定义的退化相关权重,可以实现将表示学习与退化信息相关联的目标。具体来说,退化的差异越大,表示之间的距离就越大。此外,从方程式(6)和(7)可以看出,退化编码器是基于对比学习训练的,没有LR图像退化表示的标签。然而,与传统的无监督对比学习不同,LR图像的退化参数(即核宽度和噪声水平)被用作模型训练中更好的表示学习的指导信息,这就是为什么我们声称退化编码器是以弱监督的方式训练的,所提出的退化建模策略是基于弱监督对比学习的。
正如之前的研究[80,83]所指出的那样,对比学习受益于一本涵盖大量负面样本的大型词典。因此,在模型训练过程中,我们维护一个由具有不同内容和降级的Nqueue样本组成的动态队列。给定由N个HR图像组成的训练集{xi}Ntrain i=1,每个HR图像用随机选择的退化进行退化,并且从每个合成的LR图像中随机裁剪两个大小为p×p的小块{yi}Nttrain i=1。然后,通过退化编码器和两层MLP投影头将裁剪后的补丁编码为向量{r 1 i∈RL,r2 i∈RL}Ntrain i=1,其中r1 i和r 2 i是从第i张LR图像裁剪出的两个补丁的嵌入。同样,动态队列中样本的嵌入表示为{r queue j}Nqueue j=1。由于图像是用随机选择的参数退化的,因此可以合理地假设,来自同一LR图像的补丁的退化是相同的,而来自不同图像的补丁则不同。因此,对于第i个图像,r2i被视为查询样本r1i的正样本,动态队列{rqueue j}Nqueue j=1中的所有样本都被视为负样本。因此,劣化的损失LDE
请注意,方程式(6)、(7)和(8)中的权重仅用于模型训练,但在测试中不是必需的。用于模型训练的LR图像是通过模糊、下采样和噪声注入从HR图像中人工合成的。因此,每个LR训练图像的噪声水平和模糊核是已知的。因此,它们不需要估计。相反,它们可以直接用于计算拟议加权InfoNCE损失中的权重。一旦退化建模网络经过训练,它就可以从模型中提取退化表示
除了模型训练的损失外,编码器的架构对于退化建模也至关重要。本研究中开发的退化编码器的架构如图2所示,即IDMN,它从任何大小的给定LR图像中提取向量d∈RL作为退化表示。考虑到不同图像区域对退化建模的贡献不同(例如,边缘通常比平坦区域更适合模糊核建模),我们在编码器中引入卷积块注意力模块(CBAM)[85],以学习强调或抑制的内容和位置,并提高学习到的退化表示的准确性。CBAM沿着通道和空间维度顺序推断数据驱动的注意力图,这些注意力图与输入特征图相乘,自适应地对其进行细化,以提高神经网络的表示能力。总体而言,如图2和表1所示,IDMN中的六个卷积层逐渐增加特征信道数量(即3→64→128→256),同时减小特征大小(即H×W→H 2×W 2→H 4×W 4)。然后,编码器末端的全局池化层生成劣化表示d∈R256。为了平衡特征大小和信道数量,CBAM被放置在第一卷积层后面以提高表示能力。请注意,为了简单起见,我们省略了图2和表1所示网络架构中的非线性激活层。总之,退化编码过程可表述为
通过信道空间注意力增强的退化编码器和退化相关的加权信息NCE损失,可以获得更适合后续SR的表示。第4.3节对基于对比学习的退化建模的编码器和损失函数的影响进行了更多分析。
3.3.2. 退化引导特征转换
总体而言,如图2所示,所提出的特征转换网络采用了残差架构中的残差。通过这种方式,可以通过多级跳转连接绕过丰富的低频信息,使主网集中精力恢复高频信息。具体而言,特征变换网络主要包含Kg退化引导特征变换组(DGFTG)和用于残差学习的长跳跃连接。每个DGFTG由Km退化引导特征转换模块(DGFTM)组成,从头到尾有一个短的跳跃连接。所提出的退化引导特征调制块(DGFMB)是DGFTM的核心。DGFMB、DGFTM和DGFTG都使用跳过连接,使网络专注于残差分量的学习。其中不同层次的跳跃连接形成了一个多层次的残差结构,有利于模型训练和重建性能。更具体地说,特征变换网络中的Kg DGFTG是级联的,然后是卷积层(3×3卷积,64个滤波器)。
DGSRN 的网络结构与训练
- 网络组成:DGSRN 用于对具有未知退化的低分辨率图像(LR)进行超分辨率处理,由 LR 图像特征提取、退化引导的特征变换和 HR 图像重建三部分构成。特征提取通过卷积层完成;特征变换部分利用退化表示(dr)细化特征;重建模块先经卷积层扩展通道,再通过像素洗牌层(pixel - shuffle)上采样,最后用卷积层重建高分辨率(HR)图像,像素洗牌层能有效实现上采样并支持任意整数超分辨率尺度。
- 训练方法:使用 L1 损失函数进行训练,将 IDMN 生成的退化表示(di)和 LR 图像(yi)输入 DGSRN,通过最小化生成的 HR 图像与真实 HR 图像(xi)的 L1 损失(LSR)来优化网络。同时,IDMN 和 DGSRN 在训练中联合优化,以确保兼容性和提升重建性能。
退化引导的特征变换
- 整体架构:特征变换网络采用残差结构,包含多个退化引导的特征变换组(DGFTG)和长跳跃连接,能让低频信息通过跳跃连接绕过,使主网络专注恢复高频信息。每个 DGFTG 由多个退化引导的特征变换模块(DGFTM)组成,且有短跳跃连接,退化引导的特征调制块(DGFMB)是 DGFTM 的核心,不同层级的跳跃连接形成多层残差结构,有利于模型训练和重建性能提升。
- 各模块作用:DGFTG 通过串联多个 DGFTM 和跳跃连接形成残差结构,在每个 DGFTM 中,DGFMB 根据退化表示调制输入特征,后续卷积层负责特征细化。DGFMB 先对输入特征(FIN)进行全局平均池化(TSAP),将其与降维后的退化表示(dr)连接,再通过全连接层和激活函数生成数据驱动的注意力图(FATM),最后通过逐元素乘法和加法操作,实现对输入特征的自适应调制,使超分辨率(SR)网络适应不同退化情况。
网络优化
为提升兼容性,对 IDMBSR 中的退化建模和 SR 网络进行联合优化,将退化编码器的损失(LDE)和 DGSRN 的损失(LSR)结合,通过最小化总损失(LIDMBSR)来训练网络。为便于训练,在联合优化前,先用 LDE 对退化建模网络进行几个周期的预训练。
与先前工作的差异
- 与 SRMD 对比:SRMD 需提前知晓退化信息(模糊核和噪声水平)作为额外输入来处理多种退化,而 IDMBSR 无需先验退化信息,能直接对不同 LR 图像超分辨率,且使用学习到的退化表示而非原始退化参数引导 SR 过程,网络兼容性更好。
- 与 KernelGAN 和 DBPI 对比:KernelGAN 和 DBPI 是基于内部学习的盲 SR 方法,因训练样本不足和在线训练复杂度高存在一定局限。IDMBSR 从 LR 图像提取退化表示影响 SR 过程,且采用外部数据集离线训练,推理阶段更高效。
- 与 BSRGAN 对比:BSRGAN 使用复杂的退化模型生成训练样本,但学习的是通用 SR 模型,适应不同图像的灵活性不足。IDMBSR 利用从 LR 图像提取的退化表示自适应引导 SR 过程,灵活性更好,重建性能更高且复杂度更低。
- 与 KOALAnet 对比:KOALAnet 通过下采样网络预测退化核来调整 SR 特征,IDMBSR 通过弱监督对比学习提取可区分的退化表示,能同时考虑多种退化;且 IDMBSR 的退化引导 SR 网络通过数据驱动变换影响 SR 过程,性能更优且复杂度更低。
- 与 IKC 对比:IKC 通过迭代校正策略估计模糊核,并在 SR 网络中引入空间特征变换层。IDMBSR 采用基于弱监督对比学习的退化建模方案,无需显式退化估计,是一步过程,减少了开销,且多层残差 SR 网络和退化引导的特征调制块比 IKC 的方法更高效。
- 与 DASR 对比:DASR 是 IDMBSR 的基线方法,二者都从 LR 图像提取退化表示影响 SR 过程。但 IDMBSR 通过弱监督方式训练退化编码器(使用加权 InfoNCE 损失结合退化参数作指导信息),在编码器中引入注意力机制,以及提出更有效的特征调制方法,在重建性能和效率上优于 DASR 。