论文笔记 FormResNet: Formatted Residual Learning for Image Restoration

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_27022241/article/details/88757651

                                                  论文笔记

FormResNet: Formatted Residual Learning for Image Restoration

Abstract

        本文提出一个深CNN通过学习结构化的残差来处理图像复原问题。不同于学习纯粹的差异(退化),本文提出添加一个“残差结构化层”来将残差格式化为有结构的信息,从而使得网络收敛更快,性能更优。另外,本文还提出一个跨级损失网络来同时保证像素级准确度和语义级别的视觉质量。

1. Introduction

        利用CNN进行图像复原的问题:

        (1)在深CNN网络中,学习一个密集的映射极易出现梯度消失/爆炸问题;

        (2)常用的训练CNN网络的方法大都是基于像素级的L2范数(MSE)目标函数,这易导致复原图像出现模糊虚影。

         本文解决以上问题的方法:

        (1)本文采用残差学习,将退化看成残差信息;

        (2)我们观察到,干净图像和退化图像在大多数均质区域中具有相似的信息,但是在高度结构化(例如,纹理)的区域中却大不相同。因为大多数情况下,结构化区域和退化都属于高频信号,所以,直接学习高频残差信息相当于逼近一个低通滤波器,那么高度结构化的图像细节信息也会被滤除掉。因此,本文提出扩展网络学习格式化的残差信息。具体做法:在网络中添加一个残差格式化层将残差格式化为稀疏分布且有结构的信息;

        (3)本文提出跨级的损失网络来减少传统的像素级L2范数造成的虚影。添加两个梯度层在梯度域建模损失。另外,在特征域中考虑高级的相似度。

        本文贡献:

        (1)设计了一个通过学习格式化残差信息来重建图像复原中的结构信息的深度神经网络;

        (2)提出了一个跨级损失网络,使得网络在像素级和高级的相似度下进行训练,从而获得比使用传统的基于MSE损失的网络更好的视觉质量;

        (3)本文提出的网络达到了领先的效果。

2. Related Work    

       基于图像先验的图像复原方法通常聚焦于特定种类的退化,并且复原后的图像容易over-smoothed。

       传统的基于深度学习的图像复原方法一般是直接学习观测图像和目标图像之间的密集映射(dense mapping)关系,但是对于图像复原问题,这样的映射近似于恒等映射,这会导致训练困难和梯度消失/爆炸问题。最近提出的残差学习结构旨在解决该问题并在高级视觉问题(例如,图像分类、检测和分割)上取得了优异的成绩。在低层视觉问题(例如,超分辨率)上,残差学习也展现了它的有效性。

        因为基于CNN的方法是数据驱动的,所以需要用目标/损失函数来约束训练过程。通常,目标是最小化L2范数(或MSE),但是易造成过光滑。大多数基于深度学习的方法聚焦于改变网络结构而很少关注损失函数的设计。

3. Proposed Method

        本文观察到在大多数均质区域中,干净图像和退化图像具有相同的低频信息,但是在高度结构化(高频)区域中,这两种图像的信息却截然不同。由于这两种区域内在的不同特性,因此,学习残差映射不能很好地重建高频区域。

         因此,本文使得学习过程更加聚焦于结构化的区域,将均质区域通过格式化层来处理,这样,经过格式化层之后的残差与图像的结构和细微细节有关。

3.2. Learning the Formatted Residual

        传统的基于残差学习的图像复原可以看作一个低通滤波器,低通滤波器的优点是高频伪影(如,噪声)可以被滤除,但是同时,其他的有用高频信息(例如,结构、边缘)也被滤除。因此,隐藏的高度结构化的区域很难被恢复。

        本文添加一个“残差格式化”层,将残差格式化为更具结构性的信息。该层旨在降低输入图像的退化,它是一个非线性操作,可以通过传统的方法(BM3D)或神经网络的方法来实现。经过该格式化层,残差映射更依赖于图像细节而不是随机分布的噪声,而且,残差映射比之前的更加稀疏,大多数区域至接近于0。

       为了避免分辨率降低问题和保证输出和输入大小相同,我们在每个卷积层之前进行零填充。另外,我们发现BN可以加速收敛,因此在卷积层和ReLU之间添加BN层。

 3.3 Cross-level Loss Net

        计算机是从像素到像素的角度“看”图像,而我们人类从语义的角度“看”图像。在大多数基于CNN的方法中,当判断图像的质量时,一个像素级的相似度(例如,L1范数和MSE)经常被用作损失函数。但是实际中,我们不仅计算像素级的性能,更关注视觉质量。因此,我们提出一个跨级的损失函数联合像素级的信息和高级语义特征。


 

猜你喜欢

转载自blog.csdn.net/qq_27022241/article/details/88757651