10.A Neural Algorithm of Artistic Style

艺术风格的神经网络算法

在精细工艺中,尤其是绘画方面,人类已经掌握了通过在图像的内容和样式之间复杂的相互作用来创造独特的视觉体验的技巧。到目前为止,这个过程的算法基础是未知的,并且没有一个具有类似功能的人工系统。然而,在视觉感知的其他关键领域,如物体和人脸识别等,最近通过一种被称为“深层神经网络”的生物启发视觉模型来证明【1,2】。这里我们介绍一个基于深层神经网络的人工系统创造了艺术图像高感知的质量。这个系统使用神经网络表征来分离、重新组合任意图像的内容和样式,提供一个神经网络创造艺术形象的算法。此外,考虑到性能优化的人工神经网络和生物视觉之间惊人的相似之处【3-7】,我们的工作为我们提供了一条通往算法的道路,让我们了解人类是如何创造和感知艺术图像的。

在图像处理任务中最强大的深层神经网络被称为卷积神经网络。卷积神经网络由多层小的计算单元组成,它以一种前馈的方式处理视觉信息。每一层单元都可以被理解为图像过滤器的集合,每一层都从输入图像中提取出特定的特征。因此,给定层的输出由所谓的特性映射组成:输入图像的不同过滤版本。

当卷积神经网络被训练在对象识别上时,它们会发展出一种图像的表示,使对象信息在处理层次结构中变得越来越清晰【8】。因此,沿着网络的处理层次,输入图像被转换为表示,与其详细的像素值相比,该表示越来越关注图像的实际内容。我们可以直接从该层的特征映射中重构图像,从而直接将每个层包含的信息可视化【9】(图1 ,内容重构,查看如何重建图像的详细信息)。网络中的较高层根据对象及其在输入图像中的排列捕获高级内容,但不限制重建的确切像素值。(图1 ,内容重构)。相比之下,底层的重构只是复制了原始图像的精确像素值(图1,内容重构)。因此,我们将网络的较高层中的特征响应称为内容表示。

为了获得输入图像风格的表示,我们使用一个最初设计用于捕获纹理信息的特征空间【8】。 此功能空间构建在网络的每个层中的过滤器响应之上。 它由特征图空间范围内不同过滤器响应之间的相关性组成(详见方法)。 通过涵盖多个层的特征相关性,我们获得输入图像的静态多尺度表示,其捕获其纹理信息而不是全局布置。

同样,我们可以通过构造一个与给定输入图像的风格表示相匹配的图像(图1、样式重构)来可视化这些样式特性空间所捕获的信息【10,11】。实际上,从风格特征的重建产生了输入图像的纹理化版本,其在颜色和局部结构方面捕获其一般外观。此外,来自输入图像的局部图像结构的大小和复杂性也随着层级结构的增加而增加,这一结果可以用越来越多的接受域大小和特征复杂性来解释。我们把这种多尺度的表示称为风格表示。

本文的关键发现是,卷积神经网络中内容和风格的表示是可分离的。也就是说,我们可以独立地操纵这两个表述,以产生新的、有知觉的图像。为了演示这一发现,我们生成了将内容和样式表示从两个不同的源图像混合在一起的图像。特别地,我们将以一幅描绘德国图宾根的“Neckarfront”的照片作为内容表示,从不同时期艺术作品中获得的几件著名艺术品的风格表现(图2)。

通过查找同时匹配照片的内容表示和相应艺术品的样式表示的图像来合成图像(参见方法的详细信息)。在保留原始照片的全局布局的同时,由艺术品提供构成全局风景的颜色和局部结构。 实际上,这使得照片以艺术品的风格呈现,使得合成图像的外观类似于艺术作品,即使其显示与照片相同的内容。

如上所述,样式表示是包括神经网络的多个层的多尺度表示。在我们在图2中示出的图像中,样式表示包括来自整个网络层次结构的层。 通过仅包括较少数量的较低层,也可以更局部地定义样式,从而导致不同的视觉体验(图3,沿着行)。 当将样式表示匹配到网络中的更高层时,局部图像结构在越来越大的范围内匹配,从而导致更平滑和更连续的视觉体验。因此,通常通过将样式表示匹配到网络中的最高层(图3,最后一行)来创建视觉上最吸引人的图像。

当然,图像内容和风格不能完全解开。当合成将​​一个图像的内容与另一个图像的样式组合的图像时,通常不存在同时完全匹配两个约束的图像。然而,我们在图像合成期间最小化的损失函数分别包含两个部分的形式,即内容和样式,它们是完全分离的(参见方法)。因此,我们可以顺利地调整重构内容或风格的重点(图3,沿着列)。对样式的强调将导致图像与艺术品的外观相匹配,有效地给出了纹理版本,但几乎没有显示任何照片的内容(图3,第一列)。当强调内容时,可以清楚地识别照片,但绘画的风格不是很匹配(图3,最后一栏)。对于特定的一对源图像,可以调整内容和样式之间的权衡以创建视觉上吸引人的图像。

在这里,我们提出了一种人工神经系统,它实现了图像内容与风格的分离,从而允许以任何其他图像的风格重构一个图像的内容。我们通过创造新的艺术图像来展示这一点,这些图像将几种著名绘画的风格与任意选择的照片的内容相结合。特别地,我们从对对象识别训练的高性能深层神经网络的特征响应中,推导出图像的内容和样式的神经表示。据我们所知,这是第一次在整个自然图像中分离内容与风格的图像特征。之前关于将内容与风格分离的研究,是在不太复杂的感官输入上进行的,比如不同笔迹或脸部图像的字符,或者不同姿势的小图形【12,13】。

在我们的演示中,我们以一系列著名的艺术作品的风格呈现一张特定的照片。这个问题通常在计算机视觉的一个分支中被称为非写实的渲染(最近的回顾【14】)。概念上最接近的是使用纹理转移来实现艺术风格转移的方法【15-19】。然而,这些以前的方法主要依赖于非参数技术来直接操纵图像的像素表示。与此相反,通过使用在对象识别上训练的深层神经网络,我们在特征空间中进行操作,明确地表示图像的高水平内容。

受过物体识别训练的深度神经网络的特征以前用于风格识别,以便根据创作时间对艺术品进行分类【20】。在那里,分类器在原始网络激活之上进行训练,我们称之为内容表示。 我们推测,转换为静态特征空间(例如我们的样式表示)可能会在样式分类中实现更好的性能。

一般来说,我们合成图像的方法,将内容和风格从不同的来源混合,提供了一种新的、令人着迷的工具来研究艺术、风格和内容独立的形象外观的感知和神经表征。我们可以设计新颖的刺激,引入两种独立的、有知觉的变异源:图像的外观和内容。我们设想这对于从心理物理学到功能成像甚至电生理学神经记录的视觉感知的广泛实验研究是有用的。实际上,我们的工作提供了一种算法理解,即神经表示如何独立地捕获图像的内容及其呈现的样式。重要的是,我们的风格表征的数学形式产生了一个清晰的,可测试的假设,即关于图像外观到单个神经元水平的表示。样式表示简单地计算网络中不同类型神经元之间的相关性。提取神经元之间的相关性是生物学上合理的计算,例如,通过主要视觉系统(V1)【21】中的所谓复杂细胞来实现。我们的结果表明,沿着腹侧流在不同处理阶段执行类似复杂细胞的计算将是获得视觉输入外观的与内容无关的表示的可能方式。

总而言之,一个神经系统,它被训练来执行生物视觉的核心计算任务,它会自动学习图像的表示,使图像内容与风格分离。解释可能是,当学习对象识别时,网络必须对保留对象身份的所有图像变化保持不变。将图像内容的变化及其外观变化分解的表示对于该任务是非常实用的。因此,我们从风格中抽象内容的能力,以及我们创造和享受艺术的能力,可能主要是我们视觉系统强大推理能力的卓越特征。

 

-----------------------------方法------------------------------------

主要文本中提出的结果是在VGG网络的基础上生成的【22】,VGG网络是一种卷积神经网络,可以在一个共同的视觉对象识别基准任务上与人类表现相媲美【23】,被引入并进行了广泛的描述【22】。我们使用了由19层VGG网络的16个卷积层和5个池层。我们不使用任何全连接层。该模型是公开的,可以在caffe框架中进行探索【24】。对于图像合成,我们发现用平均池替换最大池操作改善了梯度流,并且获得了更有吸引力的结果,这就是为什么所示图像是用平均池生成的。

 

 
 


通常,网络中的每个层定义非线性滤波器组,其复杂度随着网络中层的位置而增加。因此,通过对该图像的滤波器响应,在CNN的每个层中编码给定的输入图像x。 具有Nl个不同过滤器(卷积核)的层具有每个大小为M1的Nl个特征映射,其中M1是高度乘以特征映射的宽度。因此,层l中的响应可以存储在矩阵F1∈RN1*Ml中,其中F1ij是层1中位置j处的第i个滤波器的激活。为了可视化在层次结构的不同层处编码的图像信息(图1,内容重建),我们对白噪声图像执行梯度下降以找到与原始图像的特征响应匹配的另一图像。 因此,让p和x是原始图像和生成的图像,并且P1和F1是它们在层l中的相应特征表示。然后我们定义两个特征表示之间的平方误差损失

 

 
 


相对于层l中的激活,该损失的导数等于

从中可以使用标准误差反向传播来计算关于图像x的梯度。因此,我们可以改变初始随机图像x,直到它在CNN的某一层中产生与原始图像p相同的响应。 图1中的五个内容重建来自层'conv1 1'(a),'conv2 1'(b),'conv3 1'(c),'conv4 1'(d)和'conv5 1'(e) 最初的VGG网络。

 

 
 


在网络的每一层中的CNN响应之上,我们构建了一种样式表示,其计算不同滤波器响应之间的相关性,其中,期望是在输入图像的空间扩展上获得的。这些特征相关性由Gram矩阵G1∈RN1*Nl给出,其中Glij是层l中的矢量化特征映射i和j之间的内积:

为了生成与给定图像的样式匹配的纹理(图1,样式重建),我们使用来自白噪声图像的梯度下降来找到与原始图像的样式表示匹配的另一图像。 这是通过最小化来自原始图像的Gram矩阵的条目与要生成的图像的Gram矩阵之间的均方距离来完成的。 因此,让~a和~x是原始图像和生成的图像,Al和G1分别是图层l中的样式表示。 那么该层对总损失的贡献就是

 

 
 

 

 
 


总体损失是

 

 

 
 


其中wl是每层对总损失的贡献的加权因子(参见下面我们的结果中w1的具体值)。 关于层l中的激活的E1的导数可以通过分析计算:

 

可以使用标准误差反向传播容易地计算E1相对于网络的较低层中的激活的梯度。 图1中的五种样式重建是通过匹配图层'conv1 1'(a),'conv1 1'和'conv2 1'(b),'conv1 1','conv2 1'和'conv3 1'上的样式表示来生成的。 '(c),'conv1 1','conv2 1','conv3 1'和'conv4 1'(d),'conv1 1','conv2 1','conv3 1','conv4 1'和'conv5 1'(e)。

 

 
 


为了生成将照片内容与绘画风格混合的图像(图2),我们共同最小化白噪声图像与网络的一层中的照片的内容表示的距离以及该图像的样式表示。 在CNN的多个层中绘画。 所以,让我们成为照片,然后是艺术品。 我们最小化的损失函数是

 

其中α和β是内容和风格重建的权重因素。对于图2中所示的图像,我们匹配层'conv4-2'上的内容表示和层'conv1-1','conv2-1','conv3-1','conv4-1'和'conv5-1'(在这些层上wl=1/5,在其他层上,wl=0)上的样式表示。α/β的比值为1*10-3(图2,B,C,D)或者为1*10-4(图2,E,F)。图3显示了内容和样式重建损失(沿着列)的不同相对权重的结果,以及仅在层'conv1 1'(A),'conv1 1'和'conv2 1'(B)上匹配样式表示的结果, 'conv1 1','conv2 1'和'conv3 1'(C),'conv1 1','conv2 1','conv3 1'和'conv4 1'(D),'conv1 1','conv2 1' ,'conv3 1','conv4 1'和'conv5 1'(E)。 因子w1总是等于1除以具有非零损失权重w1的有源层的数量。

-------------------------感谢---------------------------------

 

猜你喜欢

转载自blog.csdn.net/weixin_40740160/article/details/83022347
今日推荐