图像编辑系列之(2)基于StyleGAN(3)GAN逆映射(4)人脸 (5)语义生成 | ICCV2021生成对抗GAN梳理汇总...

二、图像编辑-基于StyleGAN

11、StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

  • 受 StyleGAN 启发,最近许多工作都集中在了解如何使用 StyleGAN 的潜在空间来操纵图像生成。但为了挖掘语义上有意义的潜在表示,通常涉及到一些人工,甚至是打标签的图像数据。

  • 这项工作探索利用最近引入的对比语言图像预训练 (CLIP) 模型,以便为 StyleGAN 图像处理开发一个基于文本的界面。提出一种将文本映射到 StyleGAN 风格空间中的方法,实现交互式文本驱动的图像操作。

3d367bdd51b260f909f6e13368c0057b.png

12、Diagonal Attention and Style-based GAN for Content-Style Disentanglement in Image Generation and Translation

  • 图像生成模型中的重要研究课题之一是,解耦空间内容和风格,以便对其进行单独控制。虽然 StyleGAN 可以从随机噪声中生成内容特征向量,但由此产生的空间内容控制主要针对微小的空间变化,全局内容和风格的解耦并不完全。

  • 受对归一化和注意力的启发,提出一种新的层次自适应空间注意力(DAT)层,操纵风格和内容从粗到细的层次解耦。此外,生成器可轻松集成到 GAN逆映射框架中,从而可以灵活控制来自多域图像转换任务的内容和风格。58725eac262c222bb778c7d59b3bb0e2.png

13、ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement

  • 生成对抗网络 (GAN)在无条件图像生成能力有显著提升。逆映射,将图像转化为经过训练的 GAN 的相应潜码表示,是有意义的,这样可以操纵真实图像。

这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/

b66641fcc477baa9a51b70bcdad8df04.png

三、图像编辑-逆映射

14、From Continuity to Editability: Inverting GANs with Consecutive Images

  • 本文通过将连续图像(例如,视频帧或具有不同姿势的同一个人)引入GAN逆映射过程,大量实验表明,方法在真实图像数据集和合成数据集的重建保真度和可编辑性方面明显优于最先进的方法。源代码

  • https://github.com/cnnlstm/InvertingGANs_with_ConsecutiveImgs

dfbc063b2918d022ed35f0b746f1bc1d.png

15、GAN Inversion for Out-of-Range Images with Geometric Transformations

  • 对图像的语义编辑,GAN 逆映射方法找到与预训练 GAN 模型域对齐的域潜码至关重要。但潜码只能用于与 GAN 模型的训练图像对齐的范围内图像。

  • 对与 GAN 模型训练图像不对齐的、超出范围的图像,本文提出BDInvert,一种新的 GAN 逆映射方法,用于进行语义编辑。

9b717bf42f277fff745f2c705f564633.png

四、图像编辑-人脸

16、A Latent Transformer for Disentangled Face Editing in Images and Videos

  • 高质量人脸图像编辑是电影后期制作行业的挑战,需高度控制和 ID身份信息保留。此前试图解决这个问题的方法可能有人脸属性纠缠、ID丢失问题。

  • 本文提出通过 StyleGAN 生成器的潜在空间来编辑人脸属性,训练专用的潜在转换网络,并在损失函数中加入显式解耦和ID保留损失项。并将方法推广到视频。

  • 源代码https://github.com/InterDigitalInc/latent-transformer

67872bdb2e84e81e4ef78e371e91f9b7.png

五、图像编辑-语义生成

17、Collaging Class-specific GANs for Semantic Image Synthesis

  • 提出一种高分辨率语义图像合成方法,它由一个基本图像生成器和多个特定于类的生成器组成,生成器基于分割图生成高质量图像。

为进一步提高不同对象的质量,通过特定于类展开单独训练,构建一组生成对抗网络 (GAN)。这有几个好处,包括 :每个类专用权重;每个模型更集中对齐数据;并轻松操纵场景中的特定对象。实验表明,方法可生成高分辨率高质量图像,同时特定于类的生成器具有对象级控制的灵活性。

  • https://yuheng-li.github.io/CollageGAN/

312a332aa771b317e6db57e20ebc321b.png

18、Image Synthesis via Semantic Composition

  • 本文提出一种基于语义布局合成逼真图像的方法,方法假设对于具有相似外观的对象,它们共享相似的表示。根据它们的外观相关性建立区域之间的依赖关系,产生空间变化和相关表示。基于这些特征,提出一个通过空间条件计算(具有卷积和归一化)构造的动态加权网络。除了保留语义差异之外,给定的动态网络还增强了语义相关性,有利于全局结构和细节合成。

85e55c68a2051bff3c18f815c679f1cd.png

19、Image Synthesis from Layout with Locality-Aware Mask Adaption

  • 针对生成以布局(一组具有对象类别的边界框)为条件的图像任务。现有方法构建布局-掩码-图像的流程,物体掩码会单独生成,形成语义分割掩码(layout-to-mask),由此生成新图像(掩码到图像)。但是,布局中的重叠框会导致对象掩膜重叠,降低清晰度并导致混乱。

本文认为生成干净且语义清晰的语义掩码非常重要,提出局部感知掩码适应 (LAMA) 模块以适应生成中重叠或附近的物体掩膜。

1f5c73e628c1e07dce4d2114d9637e2b.png

猜您喜欢:

55154d1717913f8b45894eb03f84c272.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

超110篇!CVPR 2021最全GAN论文汇总梳理!

超100篇!CVPR 2020最全GAN论文梳理汇总!

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

89a9fcf6bb83e2e516b4da49e1c7fe35.png

猜你喜欢

转载自blog.csdn.net/lgzlgz3102/article/details/123606430