Unsupervised Image-to-Image Translation Networks(NIPS 2017)

文本为论文翻译,翻译尽量为通俗语言,并且尽最大可能还原论文的原意。

原文名:《Unsupervised Image-to-Image Translation Networks》

论文地址: https://arxiv.org/pdf/1703.00848.pdf

对关键词的翻译,避免造成误解,特有以下说明:

转换=translate, 比如输入一张夏天的照片,输出一张冬天的照片,这个过程成为“转换”。

领域=domain,找不到合适的中文词对应,比如夏天算一个domain,冬天算另一个domain。不同domain之间的图像互相变换的过程成为translate。


摘要

无监督的图图转换的目的是:从各个领域的边缘分布的图像中学习到不同领域图像的联合分布

由于联合分布有无限多种可能性,所以没人能在不加任何假定的情况下从不同领域的边缘分布得到它们的联合分布。为了解决这个问题,我们提出了共享潜在空间的假设,并且还提出了一种基于对偶GAN的的无监督图图转换框架UNIT。我们将这种新框架与竞争方法相比较,并且在一系列的无监督图图转换挑战赛(包括街景图像转换和动物图像转换)中获得了一个高质量的图像转换结果。我们将这种新框架根据领域的不同进行调整,在基准数据集上取得了最好的表现性能。


1.引言

很多CV任务可以看作是图像到图像转换问题(文中会简写成“图图转换问题”,代表将一种领域的图像转换成另一种领域的图像),即将一个领域的图像映射到另一个领域中。例如,"超分辨率"可以看作低分辨率图像映射到高分辨率图像的问题;着色可以看作是灰度图像到彩色图像的映射问题。这些问题既可以用监督式学习也可以用无监督学习来解决。拿监督学习来说,成对的不同领域的对应图片是必须要有的;而对于无监督学习而言,我们只有两个来自不同领域的相互独立的图像集,也就是说没有成对的数据来表示图像的映射关系!由于缺乏成对数据,无监督图图转换问题(UNIT)自然要棘手一些,不过也因为训练集的来源变得简单使得它具有更广泛的应用。

如果从概率的角度分析图图转换问题,这个关键点就是学习不同领域图像的联合分布。在无监督的情况下,两个来自不同领域的图像集(即各自有自己的边缘分布),咱的任务就是推断出它俩的联合分布。2002年Lindvall教授提出的“对偶理论”证明了:一般而言,从已有的边缘分布中得出的联合分布是无限多种。因此,从边缘分布推断出联合分布是一个高度不适定问题。要解决这个高度不适定问题,我们需要从联合分布的结构上进行额外地假定

扫描二维码关注公众号,回复: 4091168 查看本文章

为此,我们提出了一种“共享潜在空间”的假定,它假设不同领域中的对偶图像可以映射到共享潜在空间中的相同潜伏对象。基于这个假设,我们提出了基于GAN和VAE的无监督图图转换的框架UNIT。我们用GAN-VAE对每个图像领域建模。对抗训练任务与“权值共享约束”相互作用,比规范共享潜在空间,生成出两个领域中的对偶图像。同时,VAE将转换后的图像和原输入图像联系到一起。我们将这种新框架用到各种对应的任务中,并且获得了一个很优的结果。我们也将它用到领域适应问题上,在基准数据集上取得了最优的准确率。共享潜在空间假定最早用在NIPS2016论文Coupled GAN上的。我们在这里将Coupled GAN的工作延申到无监督图图转换问题上。我们也注意到当前一些其他算法提出的循环一致性假设,它假定源领域中的图像映射到目标领域之后还能通过同样的方法映射回源领域。在我们这篇文章里,我们证明了共享潜在空间约束是包含循环一致性约束的

2.假设

首先让\chi_1\chi_2分别表示两个图像领域。在监督式图图转换问题中,我们可以直接获得来自联合分布P_{\chi_1, \chi_2}(x_1, x_2)抽样出来的样本(x1, x2)。但是在无监督图图转换问题中,我们只能从各自的边缘分布中获得样本。因为从已知边缘分布中获得的联合分布可能性有无数种,我们无法不加任何假定地从边缘分布获得联合分布。(- .-, 这句话到目前为止,出现了三次。。。原来顶会论文字数不够的时候也会这样撑字数。。)我们提出了共享潜在空间的假设。如图1所示,我们假设任何成对的输入x1和x2都在某个共享潜在空间里拥有一样的潜在码z。我们可以根据这个潜在码来恢复成原图,也可以通过原图计算出潜在码。

图1:(a)共享潜在空间假设。我们假设了一对来自两个不同图像领域(\chi_1\chi_2)的对偶图像(x1, x2) ,在共享潜在空间Z中,它们能被映射到相同的潜在码z。E1和E2是两个编码函数,负责把图像编码成潜在码。G1和G2是两个生成函数,负责把潜在码转换成图像。(b)我们提出的UNIT框架。首先,我们的E1,E2,G1,G2这四个函数都是用CNN来实现的。此外,我们为了实现共享潜在空间使用了权重共享限制的策略,即 把E1和E2的后几层绑在一起(共享权重,如上图的虚线所示),把G1和G2的前几层绑在一起。

\tilde{x}_{1}^{1\rightarrow 1}\tilde{x}_{2}^{2\rightarrow 2}自重构图像\tilde{x}_{1}^{1\rightarrow 2}\tilde{x}_{2}^{2\rightarrow 1}领域变迁图像。D1和D2是各自领域的对抗判别器,负责评估生成图片是否为真。

                                                                                                表1 

3. 框架

如图1所示,我们的框架是基于VAE和GAN的。由6个子网络组成:编码器E1和E2,生成器G1和G2,判别器D1和D2。我们在表1中总结了各子网的作用。

猜你喜欢

转载自blog.csdn.net/leviopku/article/details/83653527