PLUSE论文阅读笔记

题目:PULSE: Self-Supervised Photo Upsampling viaLatent Space Exploration of Generative Models

中文:PLUSE:通过生成模型的潜在空间探索进行自我监督的照片升采样

在这里插入图片描述

摘要

  • 单图像超分辨率的主要目的是从对应的低分辨率(LR)输入构建高分辨率(HR)图像。在通常受到监督的以前的方法中,训练目标通常会进行测量超分辨(SR)和HR图像之间的像素方向平均距离【缺点】优化此类指标通常会导致模糊,尤其是在高方差(详细)区域中。我们基于创建正确缩小比例的逼真的SR图像,提出了另一种模拟超分辨率问题的方案。我们提出了一种新颖的超分辨率算法,用于解决该问题PULSE(通过潜在空间探索进行照片上采样),该算法可生成以前文献中未曾见过的高分辨率,逼真的图像。它完全以自我监督的方式完成此任务,并且不限于训练过程中使用的特定降级算子,这不同于以前的方法(后者需要训练LR-HR图像对的数据库以进行监督学习)。 PULSE不是遍历LR图像并慢慢添加细节,而是遍历高分辨率的自然图像流形,搜索缩小到原始LR图像的图像。这是通过“按比例缩小的损失”来形式化的,该损失会指导生成模型潜在空间的探索。通过利用高维高斯的属性,我们限制了搜索空间以确保我们的输出是现实的。因此,PULSE可以生成既真实又正确缩小比例的超分辨率图像**。我们显示了广泛的实验结果,证明了我们的方法在面部超分辨率领域(也称为面部幻觉)的有效性。我们还介绍了当前使用带有相关指标的伴随模型卡实施的方法的局限性和偏见。我们的方法在感知质量上优于最新方法,并且分辨率和比例因子都比以前更高

背景:在以前的受到监督的方法中,测量超分辨(SR)和HR图像之间的像素方向平均距离。优化此类指标通常会导致模糊。
方法:
结论:我们的方法在感知质量上优于最新方法,并且分辨率和比例因子都比以前更高

引言

  • 在这项工作中,我们旨在将模糊的低分辨率图像转换为清晰,逼真的高分辨率图像。在这里,我们专注于面部图像,但是我们的技术通常是适用的。在许多领域(例如医学,天文学,显微成像和卫星图像),由于成本,硬件限制或内存限制等问题,很难获得清晰的高分辨率图像[24]。这导致捕获模糊,低分辨率的图像。
  • 图像可能很旧,因此很模糊,甚至在现代环境中,图像可能会失焦,或者每个人都可能在背景中。除了视觉上不吸引人外,这还**【缺点】**会影响依赖于高分辨率图像的下游分析方法(例如图像分割,动作识别或疾病诊断)的使用[20] [23]。另外,随着近年来消费者便携式计算机,电话和电视屏幕分辨率的提高,对清晰图像和视频的普遍需求激增。这激发了人们对图像超分辨率的计算机视觉任务的兴趣,创建具有低分辨率(LR)输入图像的逼真的高分辨率(以后称为HR)图像。

上面讲了为什么要做超分辨

  • 尽管图像超分辨率方法的优点显而易见,但HR和LR图像之间的信息内容差异(特别是在高比例因子下)阻碍了开发此类技术的努力。特别是,LR图像固有地具有较少的高方差信息;细节可能会模糊到视觉上无法分辨的程度。与生成一组潜在的此类HR图像相反,恢复由LR输入所描绘的真实HR图像的问题本质上是不适当的,因为这些图像的总集合的大小与比例因子呈指数增长[3]。也就是说,许多高分辨率图像可以对应于完全相同的低分辨率图像。

ill-posed问题,所以要从HR图像下采样LR

  • 传统的监督超分辨率算法训练模型(通常是卷积神经网络或CNN),【传统方法】最小化所生成的超分辨(SR)图像和相应的地面真相HR之间的像素方均方误差(MSE)图片[15] [8]。然而,已经注意到这种方法忽略了对于HR图像的真实感至关重要的感知相关细节,例如纹理[16]。优化HR和SR图像之间像素空间的平均差异会产生模糊效果,鼓励SR图像的详细区域进行平滑处理,使其平均(在像素方向上)更正确。实际上,在均方误差(MSE)的情况下,理想的解决方案是将实际图像集正确缩放到LR输入的像素加权平均值(如后所述)。不可避免的结果是在高方差区域(例如图像的图案或纹理复杂的区域)进行平滑处理。因此,MSE不应单独用作超分辨率图像质量的量度。

解释了传统CNN网络的做法,和MSE方法会导致生成图像过于平滑的原因(失去纹理细节信息)

  • 一些研究人员已经尝试扩展这些基于MSE的方法,以进一步优化旨在鼓励现实主义的指标,从而起到抵抗MSE术语平滑作用的作用[16,8]。这本质上是在自然图像流形(代表高分辨率图像集的RM×N子集)的方向上拖动了基于MSE的解决方案。这种折衷方案虽然比纯基于MSE的解决方案提高了感知质量,但不能保证生成的图像是真实的。使用这些技术生成的图像的高方差区域仍然显示出模糊迹象。

对于MSE方法的改进,但是效果不明显。

  • 为了避免这些问题,我们提出了一种超分辨率的新范例。目标应该是在可行的解决方案范围内生成逼真的图像;也就是说,找到实际上位于自然图像流形上并且也正确下采样的点。由于先前描述的原因,MSE得出的可能解决方案的(加权)按像素取平均值,通常不能满足该目标。我们在图2中提供了一个说明。

提出解决办法如下图
在这里插入图片描述
图2. FSRNet趋向于适当缩小图像的平均值。 FSRGAN中的鉴别器损耗将其拉向自然图像流形的方向,而PULSE始终沿该流形移动。

  • 我们的方法使用(预训练的)生成模型生成图像,该模型近似考虑了自然图像的分布。对于给定的输入LR图像,遍历由生成模型的潜在空间参数化的流形,以找到正确下采样的区域。通过这样做,我们找到了可以正确缩小比例的真实图像的示例,如图1所示。
    在这里插入图片描述

图1.(x32)输入(顶部)被上采样到SR图像(中),然后缩小(底部)到原始图像。

  • 这种方法还避免了对有监督训练的需求,因为它完全是自我监督的,在超分辨率推理时不需要“训练”(无监督生成模型除外)。该框架具有多个实质性好处。首先,即使在没有对应的LR-HR对数据库的情况下,它也可以在具有不同梯度运算符的图像上使用相同的网络(因为没有进行这种数据库的训练)。此外,与以前的方法不同,它不需要研究人员花费大量时间来开发用于超分辨率的特定于任务的网络体系结构,它与最新的生成模型一起进行,不需要重新训练。

这个方法是自监督的,不需要对应的LR-HR图像对。

  • 我们的方法可与任何类型的生成模型一起使用,该生成模型具有可微分的生成器,包括基于流的模块,可变自动编码器(VAE)和GANs。每种选择都取决于近似数据流形的权衡取舍。在这项工作中,由于最近的发展产生了高分辨率,清晰的图像,我们选择使用GAN [13,12]。

  • 图像超分辨率的一个特定子域在人脸图像的情况下交易。这个子域-称为幻觉-在消费者摄影,照片/视频恢复等方面得到了应用[28]。因此,它作为计算机视觉任务本身已经引起了人们的兴趣。我们的工作重点是面部幻觉,但我们的方法扩展到了更一般的背景。

介绍了人脸超分辨

  • 由于我们的方法总是产生既依赖自然图像流形又正确采样到原始低分辨率图像的解决方案,因此我们可以提供一系列有趣的高分辨率可能性,例如通过利用许多生成模型固有的随机性:我们的技术可以创建一组图像,每个图像在视觉上都令人信服,但彼此看起来有所不同,在没有地面真理的情况下,任何图像都可能是低分辨率输入的来源。

不提供Ground truth的情况下, 可以产生很多看起来真实的高分辨图像

  • 主要工作如下:
    • 1.图像超分辨率的新范例。以前的工作采取了传统的,不适定的观点,试图从LR输入“重建” HR图像,从而产生实际上平均可能的解决方案的输出。这种平均导致不希望的模糊。我们介绍了一种新的超分辨率方法:一种超分辨率算法应创建逼真的高分辨率输出,并将其缩减为正确的LR输入。【传统方法导致模糊的原因是平均了多种可能的解决方案。】

    • 2.一种解决超分辨率任务的新方法。根据我们的新观点,我们提出了一种新的超分辨率算法。传统工作的核心目标是使用监督学习(尤其是使用神经网络)来近似LR→HR图,而**我们的方法集中在使用非监督的HR数据生成模型上。**使用生成式对抗网络,我们探索潜在空间以找到可映射到真实图像并正确缩小比例的区域。无需再培训。我们使用StyleGAN [13]的特殊实现方式允许创建任意数量的真实SR样本,这些样本可以正确映射到LR输入。

    • 3。高维先验条件下潜在空间搜索的原始方法。在我们的任务和许多其他任务中,通常希望在生成模型的潜在空间中找到映射到实际输出的点。从直觉上讲,这些应该类似于训练期间看到的样本。乍一看来,通过潜在先验的传统对数似然正则化可以完成此任务,但我们观察到“肥皂泡”效应(高维高斯密度的大部分密度都位于超球面附近)与此矛盾。传统的对数似然正则化实际上倾向于将潜在矢量从该超球面移开,而是移向原点。因此,将搜索空间限制在该超球面的表面,从而确保在高维潜在空间中具有逼真的输出;这样的空间在其他方面很难搜索。

第三点不理解。

未来工作

  • 通过这些实验,我们发现PULSE可以产生可感知的优质图像,并且可以正确缩小图像。 PULSE通过文献中以前未曾见过的解决方案实现了这一目标。所有这些都是通过无监督方法完成的,从而无需对LR-HR图像的成对数据集进行训练。我们的图像的视觉质量以及MOS和NIQE分数表明,我们提出的超分辨率问题的表述与人类的直觉相对应。从预先训练的GAN开始,我们的方法仅在测试时间运行,在单个GPU上约5秒钟生成每个图像。但是,我们还注意到在对超过标准基准的自然图像进行评估时存在很大的局限性。
  • 在GAN的输出空间中搜索适当缩小的图像时,一个合理的考虑是,尽管GAN生成清晰的图像,但它们并不需要覆盖整个分布,例如,必须基于流程的模型。在使用CelebA和StyleGAN进行的实验中,我们没有发现任何表现形式,这可能是由于偏见所致。第6节(GAN的“模式崩溃”行为可能加剧数据集偏差,并有助于第6节和模型卡(图8)中所述的结果。)先进的生成模型将使生成的模型能够更好地覆盖较大的分布,这可以无需修改即可直接与PULSE一起使用。
  • 考虑这种无人监督的方法时,另一个潜在的问题可能是未知的缩减功能。在这项工作中,我们专注于最突出的SR用例:三次缩小图像,实际上,在许多用例中,缩小函数要么是解析已知的(例如双三次),要么是硬件的(已知)函数。但是,方法显示,可以针对任意LR图像(即,不一定是按比例缩小的图像)以完全无监督的方式估计失真[7,31]。通过这样的方法,我们可以保留算法的缺乏监督;将这些集成在一起是将来工作的有趣话题。

结论

  • 我们已经建立了一种用于图像超分辨率的新方法以及新的问题表述,这为超分辨率方法开辟了一条新途径,与传统的CNN监督工作不同。该方法不仅限于在培训过程中看到的特定退化操作人员,而且始终保持较高的感知质量。

猜你喜欢

转载自blog.csdn.net/mzj15101229871/article/details/113347813