A LEARNED REPRESENTATION FOR ARTISTIC STYLE

A LEARNED REPRESENTATION FOR ARTISTIC STYLE

绘画风格的多样性为形象的建构提供了丰富的视觉语汇。一个人学习和捕捉这种视觉词汇的程度衡量了我们对绘画更高层次特征的理解,如果不是对一般图像的理解的话。在这项工作中,我们研究了一个单一的、可扩展的深度网络的构建,它可以节省地捕捉多种绘画的艺术风格。我们展示了这样一个网络,通过将一幅画缩减到嵌入空间中的一个点来概括各种艺术风格。

重要的是,这个模型允许用户通过任意组合从单个绘画中学习到的风格来探索新的绘画风格。我们希望这项工作为建立丰富的绘画模型提供了一个有用的步骤,并为了解艺术风格的学习表征结构提供了一个窗口。

2 STYLE TRANSFER WITH DEEP NETWORKS

风格转移可以被定义为找到一个内容与内容图像c相似,但风格与风格图像s相似的pastic图像。

艺术风格的神经算法提出以下定义:

•如果经过训练的分类器所提取的高级特征在欧氏距离上接近,则两幅图像在内容上是相似的。

•如果经过训练的分类器提取的低层次特征共享相同的统计数据,或者更具体地说,如果特征的Gram矩阵之间的差异有一个小的Frobenius范数,那么两幅图像在风格上是相似的。

第一点是受经验观察的启发,分类器中的高层次特征往往对应于更高层次的抽象(见Zeiler & Fergus(2014)的可视化;见Johnson等人(2016)的风格转移特征)。第二点的动机是观察到一幅画的艺术风格可以被解释为一种视觉纹理(Gatys等人,2015a)。据推测,视觉纹理在空间上是同质的,由重复的结构图案组成,其minimal sufficient statistics被lower order statistical所捕获(Julesz, 1962; Portilla & Simoncelli, 1999)。

艺术风格神经算法在其原始公式中是这样进行的:从p的某个初始化(如c,或某个随机初始化)开始,对p进行调整,使损失函数最小化

在这里插入图片描述

式中Ls§为风格损失,Lc§为内容损失,λs, λc为缩放超参数。给定一组“样式层”S和一组“内容层”C,样式和内容损失本身被定义为

在这里插入图片描述

其中 ϕ l ( x ) \phi_l(x) ϕl(x)是第l层的分类器激活, U l U_l Ul是第l层的单元总数, G ( ϕ l ( x ) ) G(\phi_l(x)) G(ϕl(x))是与第l层激活相关的Gram矩阵。在实践中,我们设置λc=1.0,并将λs作为一个自由的超参数。

为了加快上述程序,我们引入了一个前馈卷积网络,称为风格转移网络T,来学习转换(Johnson等人,2016;Li & Wand,2016;Ulyanov等人,2016a)。它将内容图像c作为输入,直接输出pastic图像(图2)。该网络在许多内容图像上进行训练(Deng等人,2009),使用与上述相同的损失函数,即

在这里插入图片描述

虽然前馈式风格转换网络解决了测试时的速度问题,但它们也有一个缺点,即网络T与一种特定的绘画风格相联系。这意味着必须为每一种要模仿的风格训练一个单独的网络T。这一限制对现实世界的影响是,在内存有限的设备(如智能手机)上实现风格转移应用变得很困难

2.1 N-STYLES FEEDFORWARD STYLE TRANSFER NETWORKS

我们的工作源于这样的直觉:许多风格可能共享某种程度的计算,而在建立一个N-styles风格转换系统时,这种共享被从头开始训练N个网络而丢掉。例如,许多印象派绘画都有相似的笔触,但在所使用的调色板上却有所不同。在这种情况下,将一组N幅印象派画作作为完全独立的风格来处理似乎是非常浪费的。

为了考虑到这一点,我们建议为N种风格训练一个单一的条件性风格转换网络T(c, s)。条件网络被赋予内容图像和要应用的风格的身份,并产生与该风格相对应的图画。虽然这个想法在纸面上很简单,但仍有一个开放性的问题,即应该如何进行调节。

在探索这个问题的过程中,我们发现了一个关于风格转换网络中归一化作用的非常令人惊讶的事实:为了对一种风格进行建模,在归一化之后对每一种具体的风格进行专门的缩放和移位参数就足够了(it is sufficient to specialize scaling and shifting parameters after normalization to each specific style.)。换句话说,一个风格转换网络的所有卷积权重可以在许多风格中共享,而且在归一化之后为每种风格调整仿生变换的参数就足够了

我们称这种方法为条件性实例归一化。该程序的目标是将一个层的激活x转化为针对绘画风格s的归一化激活z。在Ulyanov等人(2016b)提出的实例归一化技术的基础上,我们增加了γ和β参数,使它们成为N×C矩阵,其中N是被建模的风格数量,C是输出特征图的数量。对一个风格的条件处理是这样实现的。

在这里插入图片描述

在这里插入图片描述

图3:条件实例归一化。输入激活x在两个空间维度上都被归一化,随后使用与风格相关的参数向量γs, βs进行缩放和移动,其中s索引风格标签。

其中,µ和σ是x在空间轴上的平均值和标准差,γs和βs是通过选择γ和β矩阵中与s相对应的行得到的(图3)(where µ and σ are x’s mean and standard deviation taken across spatial axes and γs and βs are obtained by selecting the row corresponding to s in the γ and β matrices (Figure 3).)。这种方法的一个额外的好处是,人们可以通过一个批处理大小为N的网络的单一前馈传递,将一个单一的图像风格化为N种绘画风格。

由于条件实例归一化只作用于缩放和移动参数,在N种风格上训练一个风格转移网络需要的参数比训练N个独立网络的天真方法要少。在一个典型的网络设置中,模型由大约160万个参数组成,其中只有大约3K(或0.2%)指定了单个艺术风格。事实上,由于γ和β的大小与网络中特征图的数量呈线性增长,这种方法需要O(N×L)个参数,其中L是网络中特征图的总数。

的大小与网络中特征图的数量呈线性增长,这种方法需要O(N×L)个参数,其中L是网络中特征图的总数。**

此外,正如在第3.4小节中讨论的,条件实例归一化带来的好处是,由于要训练的参数数量非常少,将N + 1样式集成到网络是廉价的。

猜你喜欢

转载自blog.csdn.net/weixin_37958272/article/details/119820012