英伟达发布新型GAN,豹子秒变沙皮狗!| 技术头条

640?wx_fmt=png


作者 | 刘静

编译 | 李尔客

转自自图灵TOPIA(ID:turingtopia)


5月9日,英伟达首席研究科学家刘明宇在社交网站公布了其最新研究成果:一种新型的GAN,在测试期间只需几张示例图像,就可以将图像转换为以前从未见过的对象类型。GAN之父Ian Goodfellow也对其进行了转发支持。


640?wx_fmt=png


人类在泛化方面非常擅长。


当给出一张以前看不见的外来动物的照片时,我们可以用不同的姿势形成同一动物的生动的心理图像,特别是当我们在之前的姿势中遇到过相似但不同的动物(图像)时。


例如,一个人第一次看到一只站立的老虎,我们可以毫不费力地想象它躺下来的样子。


640?wx_fmt=png


同时,也很容易获得一种伴认知泛化能力,即其他的动物躺下来会是什么样子。


640?wx_fmt=png


对于现有无监督图像到图像的转换算法,虽然已经在跨图像类转换复杂的外观变化方面非常成功,但基于先验知识从新类的少数样本泛化的能力完全超出了它们的范围。 具体地说,仍然在两个方面受到限制:


首先,模型通常需要在训练期内看到来自目标类的大量图像。


其次,在测试期内,不能将用于转换任务的训练模型重新用于另一转换任务。


简言之,现有的算法不支持小样本泛化。


为了弥合人机与机器想象能力之间的差距,最近英伟达的研究人员提出了几个无监督的图像到图像转换框架(FUNIT)来解决上述限制。


  • 在训练时,FUNIT模型会学习在从一组源类中采样的任何两个类之间转换图像。


  • 在测试时,模型会显示一些它从未见过的目标类的图像。该模型利用这些少量示例图像将源类的输入图像转换为目标类。


首先假设人类的小样本泛化能力是从他们过去的视觉经验中发展出来的 - 如果一个人在过去看过更多不同的对象类别,他们可以更好地想象一个新对象的视图。


基于该假设,研究人员使用包含许多不同对象类的图像的数据集来训练FUNIT模型,以模拟过去的视觉体验。具体来说,他们通过利用另一个类的少量示例图像来训练模型以将图像从一个类转换为另一个类。


假设通过学习从用于翻译任务的少数示例图像中提取外观模式,该模型学习了一种可推广的外观模式提取器,其可以在测试时应用于看不见的类的图像,用于少数镜头到图像到图像的转换任务。


640?wx_fmt=png

左:训练。 训练集由各种对象类(源类)的图像组成。 我们训练模型来在这些源对象类之间转换图像。右:部署。 我们向训练模型显示目标类的极少数图像,这足以将源类的图像转换为目标类的类似图像,即使模型在训练期间从未见过来自目标类的单个图像。


请注意,FUNIT生成器需要两个输入:1)内容图像(红色线圈选)和2)一组目标类图像(绿色线圈选)。 它旨在生成类似于目标类图像的输入图像的转换。


架构及转换过程


640?wx_fmt=png

640?wx_fmt=png


框架基于生成对抗网络(GAN),实验表明,通过将对抗性训练方案与新颖的网络设计相结合,研究人员实现了所需的几次无人监督的图像到图像转换能力。 通过对三个数据集的广泛实验验证,包括使用各种性能指标与几种基线方法的比较,验证了框架的有效性。


少样本无监督的图像到图像转换示例


研究人员展示了动物面部转换,鸟类转换,花卉转换和食物转换的结果。对于每个例子,


y1和y2是测试期间可用的目标类的少数示例图像,


x是源类的输入图像,


x bar是从源类到目标类的转换。


模型能够将豹子转换成沙皮狗,即使它在训练期间从未见过单一的沙皮狗图像。


640?wx_fmt=png

动物面部转换


640?wx_fmt=png

鸟类转换


640?wx_fmt=png

花卉转换


640?wx_fmt=png

食物转换


结果表明,在训练过程中,当模型没有看到任何目标类的图像时,FUNIT可以基于小样本集生成可信的转换输出。


我们注意到输出图像中的对象与输入具有相似的姿势。


框架的局限性


640?wx_fmt=png


当看不见的对象类的外观与源类的外观(例如花和动物的面部)显着不同时。 拟议的FUNIT框架未能产生有意义的转换输出。


论文摘要

640?wx_fmt=png


无监督的图像到图像的转换方法,是指学习利用图像的非结构化(未注册)数据集,将给定类中的图像映射到不同类中的类似图像。


虽然非常成功,但是当前的方法需要在训练时访问源类和目标类中的许多图像。 我们认为这极大地限制了它们的使用。


人类通常具有可以从少数例子中找到新物体本质的能力,研究人员以此为灵感并加以推广,他们寻求一种小样本的、无监督的图像到图像的转换算法,该算法适用于以前从未见过的目标类别。 在测试时仅指定几个示例图片,该模型通过将对抗训练方案与新颖的网络设计相结合,实现了这种小样本的泛化能力。 通过广泛的实验验证和与基准数据集的几种基线方法的比较,验证了所提出框架的有效性。


代码:

https: //nvlabs.github.io/FUNIT


Demo:

https://nvlabs.github.io/FUNIT/petswap.html


论文:

https://arxiv.org/pdf/1905.01723.pdf


 
  

(本文为 AI科技大本营转载文章,转载请联系原作者)



CTA核心技术及应用峰会



5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。


更多重磅嘉宾请识别海报二维码查看,目前会议早鸟票发售中(原票价1099元),点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。

640?wx_fmt=jpeg

推荐阅读

640?wx_fmt=png

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/90150473
今日推荐