语言翻译是大家都知道的应用。但图像作为一种交流媒介，也有很多种表达方式，比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译，是一个图像生成任务。

多年来，这些任务都需要用不同的模型去生成。在GAN出现之后，这些任务一下子都可以用同一种框架来解决。这个算法的名称叫做Pix2Pix，基于对抗神经网络实现。话不多说，先上一张图。

将街景标注图像变成真实图像
将建筑标注图像转换为真实图像
将卫星图像转换为地图
将白天的图片转换为夜晚的图像
将边缘轮廓线转为真实物体

本文是文献Image-to-image translation with conditional adversarial networks的笔记。

虽然论文是去年11月份的，比较古老，但作为一篇很经典的论文，值得一读。

引入

卷积神经网络, CNN 出现以来，各种图像任务都在飞速的发展。但CNN虽然能够自动学习出一些东西，仍然需要人的指导。设计对的损失函数便是其中的一种方式，对于图像翻译等图像生成任务来说，告诉CNN去学习什么非常的重要。如果告诉CNN去学习一种错误的Loss，那么也不会得到什么好的结果。以欧式距离为例，CNN学习欧氏距离就会得到一张比较模糊的图像。而对于图像翻译任务来说，我们需要让CNN学习能够输出真实的清晰的图像。

pix2pix模型原理

生成网络G

pix2pix网络是GAN网络中的一种，主要是采用cGAN网络的结构，它依然包括了一个生成器和一个判别器。生成器采用的是一个U-net的结构，其结构有点类似Encoder-decoder，总共包含15层，分别有8层卷积层作为encoder，7层反卷积层（关于反卷积层的概念可以参考这篇博客：反卷积原理不可多得的好文）作为decoder，与传统的encoder-decoder不同的是引入了一个叫做“skip-connect”的技巧，即每一层反卷积层的输入都是：前一层的输出+与该层对称的卷积层的输出，从而保证encoder的信息在decoder时可以不断地被重新记忆，使得生成的图像尽可能保留原图像的一些信息。

上图中，首先U-Net也是Encoder-Decoder模型，其次，Encoder和Decoder是对称的。
所谓的U-Net是将第i层拼接到第n-i层，这样做是因为第i层和第n-i层的图像大小是一致的，可以认为他们承载着类似的信息。

判别网络D

对于判别器，pix2pix采用的是一个6层的卷积网络，其思想与传统的判别器类似，只是有以下两点比较特别的地方：

将输入图像与目标图像进行堆叠：pix2pix的判别器的输入不仅仅只是真实图像与生成图像，还将输入图像也一起作为输入的一部分，即将输入图像与真实图像、生成图像分别在第3通道进行拼接，然后一起作为输入传入判别器模型。
引入PatchGAN的思想：传统的判别器是对一张图像输出一个softmax概率值，而pix2pix的判别器则引入了PatchGAN的思想，将一张图像通过多层卷积层后最终输出了一个比较小的矩阵，比如30*30，然后对每个像素点输出一个softmax概率值，这就相当于对一张输入图像切分为很多小块，对每一小块分别计算一个输出。作者表示引入PatchGAN其实可以起到一种类似计算风格或纹理损失的效果。

其具体的结构如下图所示：