作者:Xiangheng He1, Junjie Chen
单位:帝国理工 & 东京大学
会议:2021 interspeech
文章目录
abstract
情感VC之前做的不好的原因是特征解耦没有做好,把文本的信息过多删除了,导致生成语音质量低&有内容损失。
本文基于StarGAN做出改进,并提出两阶段的训练。
introduction
AutoVC & VAE的经验是:通过给decoder说话人向量,可以帮助encoder编码说话人无关的信息。并且通过联合GAN 和speaker classifier,对VC模型的结果进行增强。
method
TrainingStage1: autoencoder training
- 预训练的emotion encoder提供连续的emotion embedding;
- 帮助emotion-independent encoder解耦出情感无关的信息;
- trconstruct loss + gan loss用于重建优化