ICCV2021:Focal Frequency Loss for Image Reconstruction and Synthesis

Focal Frequency Loss for Image Reconstruction and Synthesis
代码

摘要

由于生成模型的发展,图像重建和合成技术取得了显著的进步。尽管如此,生成图像和真实世界图像之间仍可能存在差距,特别是在频域。在这项研究中,我们发现缩小频率差距域可以改善图像重建和合成质量。We propose a novel focal frequency loss, which allows a model to adaptively focus on frequency components that are hard to synthesize by down-weighting the
easy ones。该目标函数是对存在的空间损失函数的的补充,其提供了强大的抗干扰能力来对抗
由于神经网络的不确定性偏差造成的重要频域信息的丢失。我们在一些popular的模型上展示了 focal frequency loss的多功能性和有效性,如VAE、pix2pix和SPADE,在感知质量和客观表现上都有提升。更进一步在StyleGAN2上展示了其潜力。

方法

  • 生成图像和真实世界图像之间仍可能存在差距

  • 如图所示,真实图像和假图像之间的频域差异可能是生成、重建方法的共同问题,尽管表现形式略有不同。在网络中整个训练过程适应某些频率的优先级也不同,通常是从低到高。因此,模型很难维护重要的频率信息,因为它倾向于生成具有更高优先级的频率。

  • 在本文中,我们仔细研究了真实图像和虚假图像之间的频域差距,并探索了通过缩小这一差距来提高重建和合成质量的方法。

  • Inspired by hard example mining and focal loss, we propose a simple yet effective frequency-level objective function, named focal frequency loss.

  • 我们将每个频谱坐标值映射到二维空间中的欧几里德向量,同时考虑空间频率的振幅和相位信息。提出的损失函数由这些向量的欧几里德距离进行缩放,通过使用动态规范权重矩阵对简单频率进行降权。直观地说,the matrix is updated on the fly according to a non-uniform distribution on the current loss of each frequency during training。然后,该模型将快速聚焦于hard frequency,并逐步细化生成的频率以提高图像质量。

Focal Frequency Loss

Frequency Representation of Images
论文里先对傅里叶变换进行了回顾,在这里不再展开,感兴趣可以去看看原文。挑几个重点:

  • 公式1是二维傅里叶变换的形式,也就是对图像变换的形式, F ( u , v ) F(u,v) F(u,v)是遍历了空间域中每个图像像素的函数之和,因此频谱上的特定空间频率取决于所有图像像素。如Figure2所示,当掩盖一个频谱,整张图都会受到影响。
  • 可见,频谱上不同区域的缺失对应于图像上的不同伪影。可以推断,补偿这些缺失可以减少伪影,提高图像重建和合成质量。这里的分析显示了使用图像的频率表示来分析和定位不同频率(尤其是hard频率)的价值。

Frequency Distance
为了设计缺失频率的损失函数,我们需要一个距离度量来量化频域中真实图像和虚假图像之间的差异。距离必须是可微的,以支持随机梯度下降。在频域中,数据对象是频谱上不同的空间频率,表现为图像中不同的二维正弦分量。为了设计频率距离,我们进一步研究了式(1)中复值 F ( u , v ) F(u,v) F(u,v)的实部和虚部.

F ( u , v ) F(u,v) F(u,v)中较为重要的有两个,一个是振幅和相位(公式5、6)。loss应该考虑这两个因素。在这里,做了一个图像重建的实验,如图3所示。

仅最小化振幅差可返回具有不规则颜色图案的重建图像。仅使用相位信息,合成的图像类似于噪声。只有同时考虑振幅和相位,才能实现可靠的重建。我们的解决方案是将每个频率值映到一个在二维空间(即平面)中的欧几里得向量。按照复数的标准定义实部和虚部对应于x轴和y轴。令 F r ( u , v ) = a r + b r i F_r(u,v)=a_r+b_ri Fr(u,v)=ar+bri为真实图像, F f ( u , v ) = a f + b f i F_f(u,v)=a_f+b_fi Ff(u,v)=af+bfi为恢复出来的图像。之后的描述我直接贴下来了:

大意是用两个r代表指向两个图像的向量,那么我们的频域距离就是这两个向量之间的距离了。所以到最后,两个向量之间的距离是欧几里得距离,绕了这么一大圈,到最后就是先傅里叶变换再MSEloss,当然了,这些理论上的说明是需要的。
Dynamic Spectrum Weighting
直接使用公式(8)作为损失函数无助于应对hard频率,因为每个频率的权重相同。由于固有的偏差,模型仍然会偏向于容易学习的频率。为了解决这个问题,我们引入了频谱权重矩阵来降低容易学习频率的权重。The spectrum weight matrix is dynamically deter- mined by a non-uniform distribution on the current loss of each frequency during training。矩阵元素w在u,v处的大小:

α \alpha α是一个缩放系数,在实验中设置为1.更进一步地要对w进行归一化到[0,1].其中,权重1对应于当前损失最多的频率,而容易的频率是向下加权的。通过频谱权重矩阵的梯度被锁定(detach),因此它仅用作每个频率的权重,focal frequency loss(FFL):

FFL可以看作是真实图像和虚假图像之间频率距离的加权平均值。它将重点放在通过降低简单频率的权重来合成hard频率上。此外,关注的区域会实时更新,为hard frequency即时补充信息,从而逐步细化生成的图像并适应不同的方法。
在使用FFL时候,会先用2D DFT对图像进行傅里叶变换,然后对 F ( u , v ) F(u,v) F(u,v)进行正交归一化,也就是除以 s q r t ( M N ) sqrt(MN) sqrt(MN),然后采用公式10计算损失。此外,FFL的准确形式其实不重要,它还可以有其他的变体。

Experiments

Baselines.

  • vanilla AE (i.e., a simple 2-layer MLP)
  • VAE(i.e., CNN-based)
  • unconditional image synthesis using VAE, i.e generating images from the Gaussian noise.
  • conditional image synthesis us- ing GAN-based methods

Evaluation metrics. 是一个frequency-level metric,Log Frequency Distance (LFD)

是在式子8的基础上改的,越低越好,需要GT,因此用在重建任务上。还用了一些已有的感知指标。

Results and Analysis

  • vanilla AE

    使用FFL,重建的图像变得更清晰,显示更多纹理细节。

  • VAE

    Figure6 对于VAE的重建,FFL帮助VAE模型更好地保持图像清晰度(第1列)、表情(第2列)和肤色(第3列)。非条件合成结果(第4、5、6列)表明,应用FFL后生成的图像质量得到了改善,生成的脸部更清晰,多了一些细节。
    Figure7是对于更高分辨率的生成,结果也很好。

    Table2 3是客观指标的结果。

  • pix2pix

    条件图像生成的结果。FFL提升图像的质量,语义信息也更加地对齐了。减少了鞋子的伪影。

  • SPADE

    更具有挑战的语义图生成真实图像。在城市景观的街道场景(第1列)中,SPADE baseline扭曲了汽车和道路,遗漏了一些重要细节(例如道路线)。使用FFL训练的模型对这些细节表现出更好的感知质量。在ADE20K(第2列)的室外场景中,将FFL应用于SPADE可以增强其生成建筑物细节的能力。此外,对于ADE20K室内图像(第3列),SPADEbaseline在某些情况下会产生一些异常伪影。使用所提出的FFL训练的模型合成了更多照片级真实感图像。
    Table5 是一些指标对比。

  • StyleGAN2
    在这里插入图片描述
    FFL减少伪影,合成质量更好。Table6是指标结果。

  • Comparison with relevant losses.
    在这里插入图片描述
    和其他损失做了下对比,PL就是VGG损失,SpReg是spectral regularization,此外还把DFT换成DCT效果也还行,这说明本文的损失形式不一定非得DFT。

  • Ablation studies.

    vanilla AE image reconstruction on CelebA for the evaluation.
    不使用frequency损失,图像变得模糊。不用振幅和相位也都会产生不好的视觉效果。不使用文中所提到的加权,结果接近baseline,但是指标上会比baseline好一丢丢。

本文的实验做的相当充分!下面是补充材料里面的一些东西。

空间频率可视化

在应用二维离散傅里叶变换后,图像被转换为其频率表示,并分解为正交正弦和余弦函数。每个正弦和余弦函数的角度频率由频谱坐标(u,v)决定。空间频率表现为图像中的二维正弦分量。频谱坐标还表示特定空间频率的角度方向。作为直观的视图,我们在图12中展示了具有特定空间频率的2D正弦分量的一些示例。可以观察到,波的角度方向和密度(角频率)取决于频谱坐标(u,v)。此外,复频率值F(u,v)可以视为每个波的权重,加权和对应于空间域中的整个图像。
Figure13想表达的意思是一个频谱与空间上的每个像素相关。

有了FFL训练会收敛到一个更优的点。
在这里插入图片描述
没有FFL的,重建的人脸是模糊的。
下次再见!

猜你喜欢

转载自blog.csdn.net/weixin_45703452/article/details/119803962