【文献阅读2020】 像素级自适应学习的超分辨率Pixel-Level Self-Paced Learning For Super-Resolution

原文链接
github

摘要:近年来,基于深度网络的预测超分辨率图像在多个图像领域得到了广泛的应用。然而,随着这些网络的构建越来越深入,它们的训练时间也越来越长,这可能会引导学习者进行局部优化。为了解决这一问题,本文设计了一种像素级自适应学习(PSPL,PIXEL-LEVEL SELF-PACED LEARNING)训练策略来加速SISR模型的收敛速度。PSPL模拟自定步长学习,将预测的SR图像中的每个像素及其对应的ground truth中的像素赋予一个注意权值,引导模型在参数空间中找到一个更好的区域。大量的实验证明,PSPL可以加速SISR模型的训练,并促使现有的几个模型获得新的更好的结果。

总结: 这篇文章不是提出一个崭新的单张图像超分辨率模型,而是提出一个加速训练原有单张图像超分辨率模型的手段。 文章认为,之前的SRCNN、SRResNet、EDSR等模型确实有很好的表现,但是它们太大、太复杂,无法有效的训练(图1)他们可能会在训练上花费更多的时间;而且,有些模型即使训练了很长时间,也可能没有产生更好的结果。

几种常用的深层SISR模型的比较。采用SSIM和PSRN进行质量评价;multadd是用于预测具有固定大小的SR图像的乘法和加法的数量

博主认为,如果说其他超分辨率模型致力于前向传播的网络结构搭建,也就是如何学习从LR到SR的映射;那么,这篇文章关注点在于根据其他模型训练好的SR,如何利用SR和HR的关系来进行决定下一步的训练,即训练策略的问题。

不同于以往根据SR和HR,往往直接计算loss,然后进行反向传播,作者设计一个训练策略来加速这些模型的训练速度,进一步增强它们的反向传播性能

这篇文章提出了一个叫做 像素级自适应学习(PSPL) 的训练策略。其中每个样本都有一个学习权值,引导学习者学习更有效的特征,更快的收敛,更好的泛化。实际上,本文介绍的就是每次训练之后得到的SR和HR,先进行了一系列处理,然后再计算loss。 博主认为,这篇文章讲的是一种训练策略,这个过程并不在前向传播中。换句话说,文章是通过改变每次训练后的HR和SR,来改变loss的值,进一步影响反向传播中模型参数的变化的。

图2说明了PSPL如何切断和重新安排数据流。为了便于学习,每个训练阶段分为以下四个步骤。在给定LR图像和HR图像的情况下:
1.首先通过模型预测SR图像。
2.然后根据SR和HR图像生成相似度图(similarity map)
3.再次,在相似度图的基础上生成注意图(attention map),注意图对这些差异较大的像素对给予了更多的注意。
4.最后,通过注意图与原始SR(HR)图像的逐项相乘得到新的SR(HR)图像,并在计算损耗时将原始SR(HR)图像替换为新的SR(HR)图像,从而影响SISR模型的优化。此外,在整个训练过程中,随着训练步骤的增加,注意图中的所有值都将趋近于一个常数,这意味着PSPL在整个训练过程中的效用逐渐降低。

PSPL的名称来自两个方面。一是随着训练时间的延长,所有注意力的重量逐渐降低,这与自主学习增加学习对象难度的过程相似;另一种是PSPL为图像中的每个像素分配注意权值,这与传统的样本级自定步长学习中为样本分配权值不同。

上面的四点具体步骤如下:

设SR代表超分辨率结果,和HR同尺寸。
1.学习LR到HR的映射F,得到SR(也就是前人提出的SISR方法);
2.根据SR和HR图像生成相似度图(similarity map)。
(1)SR和HR对应的 patches( p s p_s p h p_h )分别和圆对称高斯权重矩阵(a circular-symmetric Gaussian weighting matrix)做点乘(element-wise multiplication),得到 p s ^ \hat{p_s} , p h ^ \hat{p_h}

(2)根据 p s ^ \hat{p_s} , p h ^ \hat{p_h} 的均值、方差,根据SSIM计算公式得到每个patch的 m s m_s ,然后得到整张图片的 M s M_s .
C C 里的两个参数 k 1 k_1 k 2 k_2 是人工设置的
使用SSIM的好处:

首先,SSIM是一种基于感知的准则,它在空间上是平稳的。 其次,SSIM能够利用其相邻像素值,使其与绝对差异相比较更稳定

3.生成注意力图Attention Map

M s M_s 经过一个高斯函数G,产生 M a M_a
这个高斯函数的三个参数 γ \gamma μ \mu δ \delta 分别代表峰值大小 峰值的位置 和 宽度。 在PSPL中,G更多地关注具有较小相似性的这些像素对. 这些参数是人工选择的。这些参数在训练过程中都是常数。

下面是某个patch的输入SSIM指数( m s m_s )和输出Attention Map( m a m_a )以及训练阶段的变化图:

4.Loss function

将Attention Map( M a M_a )分别和SR HR做点乘(Fig2 绿色实线),对得到的两个结果做Loss。

由于 M s M_s M a M_a 只是为了得到新的SR,HR来计算Loss,不在SISR网络内部,因此这一过程不参与反向传播,只是用于训练中。毕竟前面已经强调了,这篇文章讲的是一种训练策略,这个过程并不在前向传播中。换句话说,文章是通过改变HR和SR,来改变loss的值,进一步影响反向传播中模型参数的变化的。

结果

不同模型下,是否应用该训练策略的效果对比:

发布了10 篇原创文章 · 获赞 9 · 访问量 586

猜你喜欢

转载自blog.csdn.net/qq_36937684/article/details/105491584