layoutgan:generating graphic layouts with wiregrame discriminators

layoutGAN是如何实现自动排版布局的_滚石Arthur的博客-CSDN博客​这是ICLR2019的论文,内容是关于机器学习在自动排版的应用。过年宅着,正好可以研究下现在AI在设计中的进展。《LayoutGAN: Generating Graphic Layouts with Wireframe Discriminators》https://arxiv.org/abs/1901.06767简介layoutGAN提出了一种是利用数据学习布局排版的新方法。...https://blog.csdn.net/qq_28941587/article/details/104104823

layoutgan的核心在于判别器,判别器的形式分为关系判别器和线框判别器,整个gan的核心就是生成器和判别器,一般来说对于判别器大多都是不做修改的,包括条件gan和非条件gan等都是在生成器上做改动,理论上,生成器的一些改动包括对特定特征的修改都可以启动可控性或者更有效果的生成的目的。layoutgan的核心就是在判别器之前将原本预测的类别和几何参数通过可微分的线框渲染器转换为线框,然后判别通过提取线框图的特征来进行预测,不过后续的const layout其实也证明了线框渲染器也不必关系渲染效果好,将self-attention更换为更为通过的transformer之后,关系渲染器效果也很好。

1.introduction

        使用传统的GAN从设计图中训练会在像素空间中合成布局,因此会混淆布局及其渲染,不太可能很好的捕获布局样式。

        在layoutgan中,每个元素都由其几何概率和几何参数表示,即边界框关键点。生成器将具有随机采样的类概率和集合参数的图像元素作为输入,并将它们排列在设计中,输出是射界元素的细化类概率和几何参数,生成器具有permutation-invariant,置换不变,如果我们重新排序输入元素,它将生成相同的布局。

        为这种结构化数据提出了两种判别器。第一种直接对元素的类概率和几何参数进行操作,虽然有效,但它对元素之间的错位和遮挡不够敏感,第二种是判别器是在视觉域中进行,不同元素之间的关系可以通过将它们映射到2D布局来评估,然后卷积网络可用于布局优化,因为它们专门用于区分视觉模式,包括但不限于错位和遮挡。然而,关键的挑战是如何将几何参数以微分方式映射到像素级布局。一种方法是spatial transformer net,将图形元素渲染为位图掩码,但是设计元素中的填充像素会导致遮挡,并且对于反向传播无效,例如,当一个小多边形隐藏在一个较大的多边形后面时,尝试位图蒙版渲染,没有效果。本文提出了一种可微分线框渲染层,将图形元素的合成和真实结构化数据渲染成线框图像,使用cnn来优化视觉和图形域的布局。线框渲染器有几个优点:1.卷积擅长图像的空间模式,对对齐更加敏感,2.即使元素重叠时也可见,因此网络可以从减轻其它渲染中可能出现的遮挡。上面这段描述我认为几乎是全文的核心的描述了,后面就是一些具体的做法。

2.layoutgan

 图 1:LayoutGAN 的整体架构。 生成器将具有随机采样的类概率和几何参数分别来自均匀分布和高斯分布的图形元素作为输入。 编码器嵌入输入并将它们馈送到堆叠关系模块,该模块通过考虑每个元素与所有其他元素的语义和空间关系,以协调的方式细化每个元素的嵌入特征。 最后,解码器将细化的特征解码回类概率和几何参数。 线框渲染鉴别器将生成的结果馈送到可微的线框渲染层,该层将输入图形元素评估为 2D 线框图像,在此之上应用 CNN 进行布局优化。

2.1 design representation

        图形设计由一组N个设计元素组成,每个元素都有一组几何参数和一个类概率向量p。几何参数表示每个点坐标。

2.2 generator architecture

        生成器是一个以布局为输入的函数,由随机采样的集合参数和初始图形元素和随机采样pi的one-hot编码输出。生成器是一个细化的布局,是接近真实的图形设计,与传统gan的z表示低维潜在变量不同,layoutgan的z表示初始随机图形布局,其结构与真实布局相同,判别器学习捕捉不同类型元素之间的关系,从图形和视觉域进行布局优化。

        生成器以一组图形元素作为输入,这些元素从均匀分布和高斯分布中采样的几何参数,fc编个码,后面跟了个self-attention,其实没必要自己设计,这里就用transformer效果就很好。

2.3 discriminator network architecture

        判别器旨在区分合成布局和真实布局,一种基于布局参数构建的关系模块,另一种是基于渲染的布局。

2.3.1 relation-based discriminator

        类概率和几何参数表示的图形元素作为输入,送入到多层感知器网络组成的编码器,用于特征嵌入,分类器判真假。

2.3.2 wireframe rendering discriminator

        渲染有三种图形,点,矩形和三角形。

 图 2:不同多边形(点、矩形和三角形)的线框渲染。 黑色网格代表目标图像的网格。 橙色点/虚线表示映射到图像网格上的图形元素。 蓝色实线表示光栅化线框,表示为图形元素在类概率和几何参数方面的可微函数。

猜你喜欢

转载自blog.csdn.net/u012193416/article/details/125716540