2019ins---Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star-GAN

会议:2019interspeech
单位:阿里巴巴 ai lab

abstract

  对于non-parallel many-to-many vc的任务,本文提出一个基于residual Star-GAN的快速学习结构。基于最新的StarGAN-VC,它学习多说话人的声学特征之间的unreference mapping。
  本文加一个residual mapping改进,称之为Res-StarGAN-VC. 短的连接没有增加参数量和计算复杂度,也可以在训练初始时生成高质量的fake sample。结果表明:(1)对应训练中更快的收敛;(2)在单语种和跨语种的任务中, 转换语音更清楚的发音和更好的相似度。

introduction

可以根据source 和target speaker是否是同一语种,将vc分成mono-lingual 和cross-lingual。

研究背景
  • VCC 2018 N10在非平行数据-many2many的任务上达到很好的效果,但存在的问题有:(1)依赖大量的识别和合成数据,(2)是一个many2one的任务,不同的说话人要训练不同的模型。
  • CVAEs(conditional variational autoencoders)可以在小数据上起效果,但是输出会有over-smooth。
  • GAN很好的克服了CVAE的缺点。StarGAN是GAN的变种,只需要一个网络结构完成many2many的mapping。生成器的输入是特征和域信息,学习把特征转到对应的域。输入特征的标签被用于表示域信息。StarGAN-VC可以完成many2many-非平行数据的转换。
    缺点:(1)学习速度很慢;(2)转换的语音质量不够好。
    原因:(1)网络直接学习一组说话人声学特征之间unreference mapping。既要转换说话人的身份特征,又要保留文本信息。
    改进–Res-StarGAN-VC: 受resnet的启发,在生成器的输入和输出之间直接加identity shortcut connection。使得网络可以学习referenced residual mapping,不仅可以加速训练过程,也能提高语音质量。

Residual StarGAN Voice Conversion

文章是真的有点难读,放弃了。。。。

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103009205
今日推荐