An Improved StarGAN for EVC: Enhancing Voice Quality and Data Augmentation

作者:Xiangheng He1, Junjie Chen
单位:帝国理工 & 东京大学
会议:2021 interspeech

abstract

情感VC之前做的不好的原因是特征解耦没有做好,把文本的信息过多删除了,导致生成语音质量低&有内容损失。
本文基于StarGAN做出改进,并提出两阶段的训练。

introduction

AutoVC & VAE的经验是:通过给decoder说话人向量,可以帮助encoder编码说话人无关的信息。并且通过联合GAN 和speaker classifier,对VC模型的结果进行增强。

method

TrainingStage1: autoencoder training

在这里插入图片描述

  • 预训练的emotion encoder提供连续的emotion embedding;
  • 帮助emotion-independent encoder解耦出情感无关的信息;
  • trconstruct loss + gan loss用于重建优化

Training Stage2:StarGAN training

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/120318500
今日推荐