记忆引导的无监督图像到图像转换【Memory-guided Unsupervised Image-to-image Translation】

背景:现有方法通常无法处理具有多个不同对象的图像。它们将全局样式应用于整个图像,而没有考虑实例与背景之间或实例内部的较大样式差异。

方法:我们提出了一个类感知记忆网络,它明确地解释了本地风格的变化。引入了具有一组读取/更新操作的键值内存结构来记录类别风格的变化。键存储用于分配内存项的与域无关的内容表示,而值对特定于域的样式表示进行编码。我们还提出了一个特征对比损失来提高记忆项目的辨别力。

主要创新:分类对待

我们的贡献可以总结如下:
• 我们提出了一种记忆引导的无监督 I2I 翻译 (MGUIT) 框架,该框架在视觉域中存储和传播实例级样式信息。据我们所知,这是第一个探索 I2I 翻译中的记忆网络的工作。
• 我们引入了键值记忆结构,以有效记录不同的风格变化,并在 I2I 翻译期间访问它们。我们的模型在测试时不需要明确的对象检测模块。我们还提出了一个特征对比损失来提高我们记忆项目的多样性和辨别力。
• 我们的方法产生了真实的翻译结果,同时很好地保留了实例细节;它在标准基准上优于最近最先进的方法。

本文是图像风格转换领域的一种新方法,引入class-aware-memory-network模块提高转换结果的质量

风格转换的基本思路是利用卷积操作把图像分成content和style两部分,然后替换掉style,用自身的content和新的style的生成结果图,达到风格转换的目的。单大部分方法只考虑了全局style的切换,忽略了实例对象之间的差异,导致结果图中细节缺失。

我们的目标是在训练和测试时间都推断实例风格,以产生更真实的结果。为此,我们采用了新颖的记忆网络,它在训练期间存储样式信息并读取适当的样式表示进行推理。

记忆网络是一个可学习的神经网络模块,它将信息存储在外部存储器中并从存储器中读取相关内容。引入了键值记忆网络,它利用键值结构记忆来读取文档。给定一个查询,键用于检索相关的记忆,并返回其对应的值

我们使用键值记忆来存储与领域无关的内容表示和特定领域的风格表示。

网络结构:
在这里插入图片描述
Class-aware Memory Network
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Read
在这里插入图片描述
用内容C对item求权重。
在这里插入图片描述
在这里插入图片描述
Updata
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

损失函数:
在这里插入图片描述
2.Adversarial loss
目的是为了最小化两个不同功能之间的分布差异
content discriminato:Cx和Cy之间的内容对抗性损失函数
使得x的内容在y风格下仍旧保持原本的内容
domain discriminator:X和Y领域对抗性损失函数

3、KL loss: 使风格表示接近于先验高斯分布

4、潜在回归损失 Llatent: 强制样式和图像之间的映射是可逆的

5、特征对比损失:

在这里插入图片描述
消融实验
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44021553/article/details/124714508