《EnlightenGAN: Deep Light Enhancement withoutPaired Supervision》论文超详细解读(翻译+精读)

前言

最近学习低照度图像增强时读到这篇EnlightenGAN的论文觉得写得很有意思,讲故事的手法也很值得小白写论文时模仿,今天就来带大家读一下~

目录

前言

ABSTRACT—摘要

翻译

精读

一、INTRODUCTION—简介

翻译

精读

二、RELATED WORKS—相关工作

2.1 Paired Datasets: Status Quo—配对数据集:现状

翻译

精读

2.2 Traditional Approaches—传统的方法

翻译

精读

2.3 Deep Learning Approaches—深度学习方法

翻译

精读

2.4 Adversarial Learning—对抗性学习

翻译

精读

三、METHOD—方法

A. Global-Local Discriminators—A.全局-局部鉴别器

翻译

精读

B. Self Feature Preserving Loss—B.自特征保持损失

翻译

精读

C. U-Net Generator Guided with Self-Regularized Attention—C.自正则注意引导的U-Net生成器

翻译

精读

四、EXPERIMENTS—实验

A. Dataset and Implementation Details—A. 数据集和实施细节

翻译

精读

B. Ablation Study—B. 消融研究

翻译

精读

C. Comparison with State-of-the-Arts—C.与最先进技术的比较

翻译

精读

D. Adaptation on Real-World Images—D.对真实世界图像的适应

翻译

精读

E. Pre-Processing for Improving Classification—E.用于改进分类的预处理

翻译

精读

五、CONCLUSION—结论

翻译

精读

ABSTRACT—摘要

翻译

基于深度学习的方法在图像恢复和增强方面取得了显著的成功,但是当缺乏成对的训练数据时,它们仍然具有竞争力吗?作为一个这样的例子,本文探讨了低光图像增强问题,在实践中,它是非常具有挑战性的同时采取低光和正常光的照片相同的视觉场景。我们提出了一个高效的无监督生成对抗网络,称为EnlightenGAN,它可以在没有低/正常光照图像对的情况下进行训练,但在各种真实世界的测试图像上都能很好地推广。我们建议使用从输入本身提取的信息来正则化未配对的训练,而不是使用地面真实数据来监督学习,并对低光图像增强问题的一系列创新进行基准测试,包括全局-局部模糊结构,自正则化感知损失融合和注意力机制。通过大量的实验,我们提出的方法优于最近的方法在视觉质量和主观用户研究方面的各种指标。由于不成对训练带来的巨大灵活性,EnlightenGAN被证明可以轻松地适应于增强来自各个领域的真实世界图像。我们的代码和预训练模型可在https://github.com/VITA-Group/EnlightenGAN上获得。


精读

  • 背景: 深度学习被广泛应用于图像恢复和增强方面的研究。
  • 本文探讨问题: 低光图像增强问题。
  • 本文采用方法: 本文提出EnlightenGAN:一个高效的无监督生成对抗网络,可以在没有低/正常光照图像对的情况下进行训练。
  • 达到的效果: EnlightenGAN被证明可以轻松地适应于增强来自各个领域的真实世界图像。

一、INTRODUCTION—简介

翻译

在弱光条件下拍摄的I法师遭受低对比度、低可见度和高ISO噪声的困扰。这些问题既挑战了人类的视觉感知,更喜欢高可见度的图像,也挑战了许多依赖计算机视觉算法的智能系统,如全天自动驾驶和生物识别[1]。为了减轻这种退化,已经提出了大量的算法,从直方图或基于认知的算法[2],[3]到基于学习的方法[4],[5]。使用深度学习的最先进的图像恢复和增强方法严重依赖于合成或捕获的损坏和干净的图像对进行训练,例如超分辨率[6],去噪[7]和去模糊[8]。

然而,配对训练图像的可用性假设在涉及增强来自更不受控制的场景的图像(诸如去雾、去噪或低光增强)时已经提出了更多的困难:1)同时捕获相同视觉场景的受损图像和地面实况图像(例如,2)从干净图像合成受损图像有时可能有帮助,但是这样的合成结果通常不够照片真实,导致当训练的模型应用于真实世界的低光图像时产生各种伪影; 3)特别是对于低光增强问题,在给定低光图像的情况下,可能不存在唯一的或明确定义的高光地面实况。例如,从黎明到黄昏拍摄的任何照片都可以被视为午夜在同一场景拍摄的照片的高光版本。考虑到上述问题,我们的总体目标是在没有配对训练数据的情况下,增强具有空间变化的光照条件和过度/曝光不足伪影的低光照照片。

受[9],[10]的启发,对于无监督的图像到图像转换,我们采用生成对抗网络(GAN)在低光和正常光图像空间之间建立一个不成对的映射,而不依赖于精确配对的图像。这使我们不必只使用合成数据或在受控设置中捕获的有限的真实的配对数据进行训练。我们引入了一个轻量级但有效的单路径GAN,名为EnlightenGAN,不像以前的作品那样使用周期一致性[11],[12],[13],[14],因此具有更短的训练时间的优点。

由于缺乏成对的训练数据,我们采用了一些创新技术。首先,我们提出了一个双平衡全局和局部低光增强。此外,由于缺乏地面实况监督,提出了一种自正则化感知损失来约束低光输入图像及其增强版本之间的特征距离,随后在局部和全局上与对抗性损失一起用于训练EnlightenGAN。我们还建议利用低光输入的光照信息作为深度特征的每个级别中的自正则化注意力映射,以正则化无监督学习。由于无监督设置,我们表明EnlightenGAN可以很容易地适应于增强来自不同领域的真实世界低光图像。

我们强调了EnlightenGAN的显著创新:

  • EnlightenGAN是第一个成功将不成对训练引入低光图像增强的工作。这种训练策略消除了对配对的训练数据,使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了过度拟合先前工作[15],[5],[16]隐含依赖的任何特定数据生成协议或成像设备,从而导致显着改善的真实世界泛化。
  • EnlightenGAN通过以下方式获得卓越的性能:(i)全局-局部优化结构,用于处理输入图像中空间变化的光照条件;(ii)自正则化的思想,通过自特征保留损失和自正则化注意力机制实现。自我正则化对于我们的模型成功至关重要,因为在不成对的环境中,没有强有力的外部监督形式。
  • 通过综合实验,将EnlightenGAN与几种最新方法进行了比较。测量结果的视觉质量,无参考图像质量评估,和人的主观调查。所有结果一致支持EnlightenGAN的优越性。此外,与现有的配对训练增强方法相比,EnlightenGAN被证明特别容易和灵活,可用于增强来自不同领域的真实世界低光图像。 

精读

低照度图像识别的难点:

  • 图像对比度低
  • 能见度差
  • ISO噪声大

成对训练图像方法的不足:

(1)同时捕获相同视觉场景的受损图像和地面实况图像非常困难。

(2)从完好的图片中合成受损图像结果不真实,产生伪影。

(3)可能没有唯一或者明确的高光实况图和低光图像对应。

本文的主要方法:

核心: 采用生成对抗网络(GAN)在低光和正常光图像空间之间建立一个不成对的映射,而不依赖于精确配对的图像。引入了一个轻量级但有效的单路径GAN,名为EnlightenGAN

具体创新点:

(1)首先提出一种双鉴别器来平衡全局和局部弱光增强。

(2)自正则化感知损失来约束低光输入图像及其增强版本之间的特征距离,随后在局部和全局上与对抗性损失一起用于训练EnlightenGAN。

(3)提出利用低光输入的照度信息作为深度特征每一层的自规则化注意图来规范无监督学习。


二、RELATED WORKS—相关工作

2.1 Paired Datasets: Status Quo—配对数据集:现状

翻译

配对数据集:现状。有几种选择可以收集低/正常光图像的配对数据集,但不幸的是,没有一种是有效的,也不容易扩展。人们可以固定相机,然后在正常光照条件下减少曝光时间[5]或在弱光条件下增加曝光时间[16]。到目前为止,LOL数据集[5]是通过改变曝光时间和ISO从真实的场景中拍摄的低/正常光图像对的唯一数据集。由于繁琐的实验设置,例如相机需要固定,物体不能移动等,它只有500对。此外,它仍然可能偏离自然低/正常光图像之间的真实映射。特别是在空间变化的光线下,简单地说,增加/减少曝光时间可能导致局部曝光过度/不足的伪像。

在高动态范围(HDR)领域,一些作品首先在不同的不完美光线条件下捕获几张图像,然后将它们对齐并融合成一张高质量的图像[15],[17]。然而,它们不是为了仅对单个低光图像进行后处理而设计的。


精读

配对数据集实验的不足:

  • 收集成对的低/正常光图像数据集既不可行又不能扩展。
  • 可以固定相机,然后在正常光条件下减少曝光时间,在弱光条件下增加曝光时间,但实验太繁琐。

2.2 Traditional Approaches—传统的方法

翻译

传统的方法。低照度图像增强作为一个图像处理问题已经被积极研究了很长时间,有一些经典的方法,如自适应直方图均衡化(AHE)[3],Retinex [2]和多尺度Retinex模型[18]。最近,[19]提出了一种用于非均匀照明图像的增强算法,利用双对数变换来平衡细节和自然度。基于先前对对数变换的研究,Fu等人提出了一种加权变分模型[20],用于通过施加正则化项来估计观察图像的反射率和照明。在[21]中,提出了一种简单而有效的低照度图像增强(LIME),其中每个像素的照度首先通过在其RGB通道中找到最大值来估计,然后通过施加结构先验来构建照度图。[22]提出了一种基于连续图像序列分解的低照度图像增强与去噪联合模型。[23]进一步提出了一种鲁棒的Retinex模型,与传统的Retinex模型相比,该模型额外考虑了噪声图,提高了对强噪声背景下低照度图像的增强性能。


精读

低照度图像增强的传统方法:


2.3 Deep Learning Approaches—深度学习方法

翻译

深度学习方法。现有的深度学习解决方案主要依赖于配对训练,其中大多数低光图像是从正常图像合成的。[4]提出了一种堆叠式自动编码器(LL-Net),用于在补丁级别上学习联合去噪和低光照增强。[5]中的Retinex-Net提供了一个端到端的框架,将Retinex理论和深度网络联合收割机结合起来。HDR-Net [24]将深度网络与双边网格处理和具有成对监督的局部仿射颜色变换的思想相结合。在HDR中,开发了一些多帧弱光增强方法[15][17][25]。

最近,[16]提出了一个“学习在黑暗中看东西”的模型,实现了令人印象深刻的视觉效果。然而,该方法除了需要成对的低/正常光训练图像之外,还直接对原始传感器数据进行操作。此外,它更侧重于通过学习颜色变换,去马赛克和去噪的管道来避免弱光增强过程中的放大伪影,这与EnlightenGAN在设置和目标方面有所不同。


精读

深度学习方法:

  • 大多数弱光图像是由正常图像合成的
  • learning to see in the dark
  • 通过学习色彩变换、去噪和去噪的通道,注重避免伪影

2.4 Adversarial Learning—对抗性学习

翻译

对抗性学习。GAN [26],[27]在图像合成和翻译方面已经证明是成功的。当将GAN应用于图像恢复和增强时,大多数现有的作品也使用配对的训练数据,例如超分辨率[28],艺术风格转移和图像编辑[29],[30],去噪[31]和去雾[32]。提出了几种无监督GAN来使用对抗学习来学习域间映射,并用于许多其他任务。[9],[10]采用了双向GAN,通过使用具有未配对数据的周期一致性损失在两个不同的域之间进行转换。少数最新的作品遵循他们的方法,并将具有周期一致性的未配对训练应用于几个低级别的视觉任务,例如去雾,去噪,超分辨率和移动的照片增强[33],[34],[35],[36]。与它们不同的是,EnlightenGAN是指不成对的训练,但具有轻量级的单路径GAN结构(即,无循环经济性),其稳定且易于训练。


精读

对抗性学习:

  • 非监督GANs来学习域间映射的对抗式学习
  • CycleGAN采用两路GAN在两个域之间进行翻译

三、METHOD—方法

A. Global-Local Discriminators—A.全局-局部鉴别器

翻译

A.全局-局部鉴别器我们采用对抗损失来最小化真实的和输出正态光分布之间的距离。然而,我们观察到,图像级vanilla增强器在空间变化的光图像上经常失败;如果输入图像具有需要与其他部分不同地增强的局部区域,例如,在整个暗背景中的小的亮区域,单独的全局图像通常不能提供期望的自适应性。受先前工作的启发[37],除了全局改善光线外,为了自适应地增强局部区域,我们提出了一种新的全局-局部局部混合结构,两者都使用PatchGAN进行真实的/假的区分。除了图像级的全局插值外,我们还添加了一个局部插值,方法是从输出和真实的正常光图像中随机裁剪局部补丁,并学习区分它们是真实的(来自真实的图像)还是假的(来自增强的输出)。这种全局-局部结构确保增强图像的所有局部补丁看起来像真实的正常光,这被证明是避免局部过度曝光或曝光不足的关键,我们的实验将在后面证明。

此外,对于全局鉴别器,我们利用最近提出的相对论鉴别器结构[35]来估计真实数据比假数据更真实的概率,并指导生成器合成比真实数据更真实的假图像。相对鉴别器的函数为:

式中,C为鉴别器网络,x_{r}x_{f}分别从真分布和假分布中采样,\sigma表示sigmoid函数。我们对相对鉴别器作了轻微的修改,用最小二乘GAN (LSGAN损失代替了s型函数。最后,全局鉴别器D和生成器G的损失函数为:

对于局部鉴别器,每次从输出图像和真实图像中随机裁剪5个patch。这里我们采用原LSGAN作为对抗性损失,如下:


精读

以前方法的不足

如果输入图像有一些局部区域需要进行不同于其他部分的增强,单靠全局图像鉴别器往往无法提供所需的自适应能力。(比如黑夜图片中有一束光。)

本文方法

  • 本文提出了一种新的全局-局部鉴别器结构,两者都使用PatchGAN进行真假鉴别。
  • 本文另外添加了一个局部鉴别器,方法是通过从输出和真实正态光图像中随机提取局部patch,并学习区分它们是真实的还是假的。

目的

这种全局-局部结构确保了增强图像的所有局部斑块看起来都像真实的正常光,避免局部曝光过度或曝光不足的问题。

全局鉴别器

采用相对论鉴别器结构

相对论鉴别器函数:

  • C:表示网络
  • x_{r} 和x_{f} :是从真实的和伪分布中采样的
  • \sigma:表示S形函数

全局鉴别器D和生成器G的损失函数:

局部鉴别器

采用每次从输出图像和真实图像中随机裁剪5个patch的方法

局部鉴别器D和生成器G的损失函数:


B. Self Feature Preserving Loss—B.自特征保持损失

翻译

为了约束感知相似性,约翰逊等人。[40]通过采用预训练的VGG来建模图像之间的特征空间距离,提出了感知损失,这被广泛用于许多低级视觉任务[28],[41]。通常的做法是约束输出图像与其地面真值之间的提取特征距离。

在我们的未配对设置中,我们建议相反地约束输入低光与其增强的正常光输出之间的VGG特征距离。这是基于我们的经验观察,即当我们操纵输入像素强度范围时,VGG模型的分类结果不是很敏感,这与另一项最近的研究[42]一致。我们称之为自特征保持损失,以强调其自正则化效用,以保持图像内容特征本身,在增强之前和之后。这与(配对)图像恢复中感知损失的典型用法不同,并且也是由我们的非配对设置激发的。具体地,自特征保留损失L_{SFP}被定义为:

其中I^{L}表示输入低光图像,G(I^{L})表示生成器的增强输出。\phi _{i,j}表示特征从在ImageNet上预训练的VGG-16模型中提取的地图。i表示其第i个最大池化,j表示其第i个最大池化层之后的第j个卷积层。W _{i,j}H _{i,j}是提取的特征图的维度。默认情况下,我们选择i = 5,j = 1。

对于我们的局部正则化,来自输入和输出图像的裁剪局部补丁也通过类似定义的自特征保留损失L_{SFP}^{Local}进行正则化。此外,我们在VGG特征图之后添加了一个实例归一化层[43],然后再输入L_{SFP}L_{SFP}^{Local},以稳定训练。因此,用于训练EnlightenGAN的总损失函数被写为:


精读

以前方法

限制提取的特征与输出图像的ground truth之间的距离。

本文方法

限制输入弱光和增强的正常光输出之间的VGG特征距离,以强调其自正则化的效用,在增强前后保留图像内容特征。

自特征保持损失LSFP定义

  • I^{L}表示输入低光图像
  • G(I^{L})表示生成器的增强输出
  • \phi _{i,j}表示从ImageNet上预训练的VGG16模型中提取的特征图
  • i表示第i个最大池化层
  • j表示第i个最大池化层之后的第j个卷积层
  • W _{i,j}H _{i,j}是提取的特征图的维度

EnlightenGAN的整体损失函数


C. U-Net Generator Guided with Self-Regularized Attention—C.自正则注意引导的U-Net生成器

翻译

U-Net [44]在语义分割、图像恢复和增强方面取得了巨大的成功[45]。通过从不同深度层提取多层次特征,U-Net保留了丰富的纹理信息,并使用多尺度上下文信息合成高质量的图像。我们采用UNet作为我们的发电机骨干。我们进一步提出了一个易于使用的注意力机制的U-Net发电机。直观地说,在空间变化的光照条件下的低光照图像中,我们总是希望增强暗区域而不是亮区域,使得输出图像既没有过度曝光也没有曝光不足。我们取输入RGB图像的照明通道I,将其归一化为[0,1],然后使用1−I(元素差异)作为我们的自正则化注意力图。然后,我们调整注意力图的大小以适应每个特征图,并将其与所有中间特征图以及输出图像相乘。

我们强调,我们的注意力地图也是一种自我调节的形式,而不是在监督下学习的。尽管其简单性,注意力引导显示,以提高视觉质量一致。我们的注意力引导U-Net生成器是用8个卷积块实现的。每个块由两个3 × 3卷积层组成,然后是LeakyReLu和一个批归一化层[46]。在上采样阶段,我们用一个双线性上采样层加上一个卷积层来替换标准的去卷积层,以减轻棋盘伪影。EnlightenGAN的最终架构在图2的左侧示出。详细配置见补充资料。


精读

选择U-Net的原因

U-Net通过从不同深度层提取多层次特征,保留了丰富的纹理信息,并使用多尺度上下文信息合成高质量的图像。

方法

  • 取输入RGB图像的光照通道I,将其归一化为[0,1]
  • 然后使用1到I(元素间的差异)作为自正则化注意力图
  • 接着调整注意力map的大小以适应每个特征map,并将其与所有中间特征map以及输出图像相乘

EnlightenGAN架构

整个注意力导向U-Net 生成器由8个卷积块组成,每个卷积块由两个3*3的卷积层一个BN层LeakReLU层

为什么把ReLU层换为LeakyReLU层?

由于稀疏梯度虽然在大多数网络中通常是理想的目标,但是在GAN中,它会妨碍训练过程,影响GAN的稳定性,所以作者的网络中没有maxpool层和ReLu层,而是用LeakReLU层替代ReLU层。

作者用到的生成网络是一个U-Net 256,做了一些稍微的修改就是加入了一个attention模块

加入的目的:对于图像增强这个任务而言,亮的部分,我们不希望特别亮;对于暗的部分,我们希望能够提亮一些,也就是说我们希望网络着重关注于图像中比较暗的部分。所以作者对图像的亮度做了一个减法,就是用1−I来作为attention map。


四、EXPERIMENTS—实验

A. Dataset and Implementation Details—A. 数据集和实施细节

翻译

由于EnlightenGAN具有使用未配对的低/正常光图像进行训练的独特能力,因此我们能够收集更大规模的未配对训练集,涵盖各种图像质量和内容。我们从[47],[5]中发布的几个数据集以及HDR源[15],[25]中收集了914个低光和1016个正常光图像的混合物,没有需要保留任何一对。1手动检查和选择被执行以去除中等亮度的图像。所有这些照片都转换为PNG格式,并调整为600×400像素。为了测试图像,我们选择了以前作品中使用的标准图像(NPE [19],LIME [21],MEF [48],DICM [49],VV,2等)。EnlightenGAN首先从零开始训练100个epoch,学习率为1e-4,然后再训练100个epoch,学习率线性衰减到0。我们使用Adam优化器,批量大小设置为32。由于单路径GAN的轻量级设计,不使用周期一致性,训练时间比基于周期的方法短得多。整个训练过程在3个Nvidia 1080Ti GPU上需要3个小时。


精读

数据集: 开源数据集中选取914张弱光图像和1016张普通光图像

训练细节:

  • epoch:先从0开始100个,调整学习率后再训练100个
  • 学习率:1 e-4
  • 优化器:Adam
  • 批量大小:32

B. Ablation Study—B. 消融研究

翻译

为了证明第1.2节中提出的每个组件的有效性,第三,我们进行了几次烧蚀实验。具体来说,我们设计了两个实验,分别去除局部干扰和注意机制的成分。如图3所示,第一行示出了输入图像。第二行显示了输入图像的注意力图,我们可以很容易地观察到,注意力图为算法提供了一个很好的指导,哪些区域应该被增强,而其他区域应该被增强。第三行显示了由EnlightenGAN生成的图像,仅使用全局搜索来区分低光和正常光图像。第四行是由EnlightenGAN产生的结果,它没有采用自正则化注意力机制,而是使用U-Net作为生成器。最后一行是由我们提出的EnlightenGAN版本生成的。第三行和第四行中的增强结果倾向于包含严重颜色失真或曝光不足的局部区域,即图3(a)中的建筑物上方的天空、图3(b)中的屋顶区域、图3(c)中的左侧开花、图3(d)中的树木和灌木的边界以及图3(e)中的T恤。相比之下,全EnlightenGAN的结果包含逼真的色彩,因此更具视觉效果,这验证了全局-局部匹配的有效性设计和自我调节的注意机制。更多图片在补充材料中。


精读

第一行到第五行分别展示了不同的低光图像注意力图不加局部鉴别器之后的增强图像不加注意力图之后的增强图像,以及最终的EnlightenGAN之后的增强图像

从第三行到第四行中被红框标起来的部分我们能看出来它有一个严重的颜色失真和不一致。

从第五行的红框部分我们能看出来EnlightenGAN它能够很好的消除掉上述问题并且获得一个视觉上令人满意的结果。


C. Comparison with State-of-the-Arts—C.与最先进技术的比较

翻译

在本节中,我们将比较EnlightenGAN与当前最先进方法的性能。我们进行了一系列的实验,包括视觉质量比较,人类主观评价和无参考图像质量评估(IQA),这是详细的。

1)视觉质量比较:我们首先将EnlightenGAN的视觉质量与最近的几种竞争方法进行比较。结果如图4所示,其中第一列显示了原始低光图像,第二至第五列是通过以下方式增强的图像:使用我们的未配对训练集训练的vanilla CycleGAN [9],RetinexNet [5],SRIE [20],LIME [21],NPE [19],LLNet [4]和CycleGAN [9]。最后一列显示了EnlightenGAN产生的结果。接下来我们放大边界框中的一些细节。LIME容易导致过度曝光的伪影,这使得结果失真和刺眼,并丢失了一些信息。与其它方法相比,SRIE和NPE的结果普遍偏暗。CycleGAN和RetinexNet在亮度和自然度方面产生的视觉效果都不令人满意。相比之下,EnlightenGAN不仅成功地学习增强暗区,而且还保留了纹理细节并避免了过度曝光伪影。更多结果见补充材料。

2)无参考图像质量评估:我们采用自然图像质量评估器(NIQE)[50],这是一种众所周知的无参考图像质量评估,用于评估真实的数字没有地面实况的图像恢复,以提供定量比较。NIQE的结果在五个公开的图像集使用以前的作品(MEF,NPE,石灰,VV,和DICM)报告在表一:较低的NIQE值表示更好的视觉质量。EnlightenGAN在五盘中的三盘获胜,并且在整体平均NIQE方面最好。这进一步证实了EnlightenGAN在生成高质量视觉结果方面优于当前最先进的方法。

3)人类主观评估:我们进行了人类主观研究,以比较EnlightenGAN和其他方法的性能。我们从测试集中随机选择了23张图片。对于每幅图像,首先通过五种方法(LIME,RetinexNet,NPE,SRIE和EnlightenGAN)进行增强。然后,我们要求9名受试者以成对的方式独立地比较五个输出。具体地,每次向人类主体显示从五个输出中随机抽取的一对图像,并要求评估哪一个具有更好的质量。指示人类受试者考虑:1)图像是否包含可见噪声; 2)图像是否包含过度曝光或曝光不足伪影;以及3)图像是否显示非现实的颜色或纹理失真。接下来,我们拟合Bradley-Terry模型[51]来估计数字主观评分,以便使用与先前作品[52]中描述的完全相同的例程对五种方法进行排名。因此,每个方法在该图像上被分配等级1-5。我们对所有23个图像重复上述操作。图5显示了五个直方图,每个直方图描绘了一种方法在23个图像上接收的秩分布。例如,EnlightGAN已经排名第一(即,最高主观分数),第二个用于8个图像,第三个用于5个图像。通过比较五个直方图,很明显,EnlightenGAN产生了人类受试者最喜欢的结果,23张图像的平均排名为1.78。RetinexNet和LIME的得分不高,因为它们会导致许多过度曝光,有时会放大噪音。


精读

第一个实验:视觉质量比较

从这里我们使用三个例子做对比:

第一个例子中我们可以看出EnlightenGAN能够成功的抑制黑夜中的一个噪音并且使得黄墙上的细节更加明显。

第二个例子中我们可以看出来NPE和SRIE算法对于增强背景细节方面做的并不好,LIME算法使得女人的脸部区域过度曝光。LLNet生成的图像使得颜色失真。然而EnlightenGAN算法明显优于其他算法,它不仅恢复了背景细节还避免了过曝现象。

第三个例子中EnlightenGAN在汽车和云朵区域产生了一个令人满意的结果。其它方法要不就是没有很好的去增强一个黑暗细节要不就是产生了过曝现象。

第二个实验:无参考图像质量评估

第二个实验是在五个子数据集上进行了测试,并采用了NIQE(无参考图像质量评价算法)及进行定量评估,NIQE越小代表着图像质量越好,从中我们可以看出EnlightenGAN在多个子数据集中取得了最好的效果。

第三个实验:人类主观评估

第三个实验是人体视觉评价测试,作者选取了9位参与者对经过EnlightenGAN、SRIE、NPE、Retinex-Net、LIME五种方法生成的23幅增强后图像进行打分。从中可以看出EnlightenGAN打分是明显优于其他方法的。 


D. Adaptation on Real-World Images—D.对真实世界图像的适应

翻译

域自适应是现实世界中可推广的图像增强不可或缺的因素。EnlightenGAN的非配对训练策略允许我们直接学习增强来自各个领域的真实低光图像,其中没有配对的正常光训练数据,甚至没有来自同一领域的正常光数据。我们使用来自真实驾驶数据集Berkeley Deep Driving(BBD-100k)[1]的低光图像进行实验,以展示EnlightenGAN在实践中的独特优势。

我们从BBD-100k集合中挑选950张夜间照片(通过平均像素强度值小于45选择)作为低光训练图像,加上50张低光图像用于保持测试。这些低光图像遭受严重的伪影和高ISO噪声。然后,我们比较了在不同的正常光图像集上训练的两个EnlightenGAN版本,包括:1)如第2节所述的预训练EnlightenGAN模型。IV-A,没有对BBD 100k进行任何调整; 2)EnlightenGAN-N:EnlightenGAN的域适应版本,它使用来自BBD-100k数据集的BBD-100k低光图像进行训练,而正常光图像仍然是我们在第二节中未配对数据集的高质量图像。我们还包括一个传统的方法,自适应直方图均衡化(AHE),和一个预训练的LIME模型进行比较,以及一个无监督的方法CycleGAN。

如图6所示,来自LIME的结果遭受严重的噪声放大和过度曝光伪影,而AHE没有足够地增强亮度。无监督方法CycleGAN由于其不稳定性而产生非常低的质量。原始的EnlightenGAN也会在这个看不见的图像域上产生明显的伪影。相比之下,EnlightenGAN-N产生了最令人愉悦的视觉效果,在亮度和伪影/噪声抑制之间取得了令人印象深刻的平衡。得益于非配对训练,EnlightenGAN可以很容易地适应EnlightenGAN-N,而不需要新领域中的任何监督/配对数据,这极大地促进了其在现实世界中的推广。 


精读

从BBD-100k集合中选取950张夜间照片(像素强度平均值小于45)作为微光训练图像,另外选取50张微光图像进行遮挡测试。

如图6所示,LIME的结果存在严重的噪声放大和过度曝光伪影,而AHE的亮度增强不够。最初的EnlightenGAN也导致了在这个未被看到的图像领域明显的伪影。相比之下,EnlightenGAN-N在亮度和伪影/噪声抑制之间取得了的平衡。


E. Pre-Processing for Improving Classification—E.用于改进分类的预处理

翻译

图像增强作为用于改善后续高级视觉任务的预处理最近受到越来越多的关注[41],[53],[54],[55],并进行了许多基准测试[52],[56],[57],[58]。我们研究了光线增强对极暗(ExDark)数据集的影响[59],该数据集专门为低光图像识别任务而构建。如[41]、[52]所建议的,光增强后的分类结果可以被视为语义信息保留的间接措施。

ExDark数据集由7,363张低光图像组成,包括训练集中的3000张图像,验证集中的1800张图像和测试集中的2563张图像,注释为12个对象类。我们只使用它的测试集,将预训练的EnlightenGAN作为预处理步骤,然后通过另一个ImageNet预训练的ResNet-50分类器。既不进行域自适应也不进行联合训练。高级任务性能用作增强结果的固定语义感知度量。

在弱光测试集中,使用EnlightenGAN作为预处理将分类准确率从22.02%(top-1)和39.46%(top-5)提高到增强后的23.94%(top-1)和40.92%(top-5)。这提供了一个侧面的证据,证明EnlightenGAN除了产生视觉上令人愉悦的结果外,还保留了语义细节。我们还使用石灰和AHE进行了实验。LIME将准确率提高到23.32%(top-1)和40.60%(top-5),而AHE则提高到23.04%(top-1)和40.37%(top-5)。


精读

ExDark数据集包含7363张弱光图像,其中训练集3000张,验证集1800张,测试集2563张,注释为12个目标类。我们只使用它的测试集,使用我们预先训练好的开明gan作为预处理步骤,然后通过另一个ImageNet预先训练好的ResNet-50分类器。既不进行域适配,也不进行联合训练。高层级性能作为增强结果的固定语义感知指标。

在弱光测试集中,采用EnlightenGAN作为预处理,增强后分类准确率提高最多。


五、CONCLUSION—结论

翻译

在本文中,我们解决了低光增强问题,一个新的和灵活的无监督的框架。所提出的EnlightenGAN在没有任何配对训练数据的情况下运行和推广良好。在各种低光数据集上的实验结果表明,我们的方法在主观和客观指标下都优于多种最先进的方法。此外,我们证明了EnlightenGAN可以很容易地适应真实的嘈杂的低光图像,并产生视觉上令人愉悦的增强图像。我们未来的工作将探索如何在一个统一的模型中基于用户输入来控制和调整光增强水平。由于光增强的复杂性,我们还期望将算法与传感器创新相结合。


精读

在本文中,作者解决了低光照图像增强问题,提出了一个新颖灵活的无监督网络框架——EnlightenGAN

它并不需要配对的数据进行训练,实验结果也表明作者的方法可以很容易地适应真实的噪声低光图像并产生视觉上令人满意的增强图像。

作者也指出其未来的工作可以围绕着如何控制和调整光线增强展开


猜你喜欢

转载自blog.csdn.net/weixin_43334693/article/details/135438286