会议:2019interspeech
单位:阿里巴巴 ai lab
abstract
对于non-parallel many-to-many vc的任务,本文提出一个基于residual Star-GAN的快速学习结构。基于最新的StarGAN-VC,它学习多说话人的声学特征之间的unreference mapping。
本文加一个residual mapping改进,称之为Res-StarGAN-VC. 短的连接没有增加参数量和计算复杂度,也可以在训练初始时生成高质量的fake sample。结果表明:(1)对应训练中更快的收敛;(2)在单语种和跨语种的任务中, 转换语音更清楚的发音和更好的相似度。
introduction
可以根据source 和target speaker是否是同一语种,将vc分成mono-lingual 和cross-lingual。
研究背景
- VCC 2018 N10在非平行数据-many2many的任务上达到很好的效果,但存在的问题有:(1)依赖大量的识别和合成数据,(2)是一个many2one的任务,不同的说话人要训练不同的模型。
- CVAEs(conditional variational autoencoders)可以在小数据上起效果,但是输出会有over-smooth。
- GAN很好的克服了CVAE的缺点。StarGAN是GAN的变种,只需要一个网络结构完成many2many的mapping。生成器的输入是特征和域信息,学习把特征转到对应的域。输入特征的标签被用于表示域信息。StarGAN-VC可以完成many2many-非平行数据的转换。
缺点:(1)学习速度很慢;(2)转换的语音质量不够好。
原因:(1)网络直接学习一组说话人声学特征之间unreference mapping。既要转换说话人的身份特征,又要保留文本信息。
改进–Res-StarGAN-VC: 受resnet的启发,在生成器的输入和输出之间直接加identity shortcut connection。使得网络可以学习referenced residual mapping,不仅可以加速训练过程,也能提高语音质量。
Residual StarGAN Voice Conversion
文章是真的有点难读,放弃了。。。。