Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

作者:Kun Zhou, Haizhou Li
会议:2021 interspeech
单位:新加坡国立

abstract

emotional VC:只变情感,不变说话人音色和内容
和情感TTS很像,都是生成high-qualiyu emotional speech。
stage 1:使用说话人的数据进行风格初始化,解耦speaking style和linguistic content;
stage 2:使用少量情感数据对模型进行ft,让模型解耦emotional style和linguistic content;

introduction

主要贡献:

  1. 提出seq2seq的EVC 系统,利用TTS拜托了对平行数据的依赖;
  2. 可以基于少量情感数据实现;
  3. 和帧级别VC不同的是,对情感风格进行acoustic和linguistic embedding的对齐,
  4. 情感数据对WaveRNN vocoder进行ft,进一步提升合成语音表现力

method

在这里插入图片描述

基于中科大ASR-TTS-VC的模型框架

  1. 首先用多人普通TTS数据训练,style encoder含有丰富的说话人+风格的信息,推测其可以学到情感的信息通过少量的情感数据;
  2. 少量情感数据进行ft,模型参数共享;其中emotional encoder和emotion classifier来自stage 1;

假设的实验论证
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/120314656
今日推荐