作者:Kun Zhou, Haizhou Li
会议:2021 interspeech
单位:新加坡国立
文章目录
abstract
emotional VC:只变情感,不变说话人音色和内容
和情感TTS很像,都是生成high-qualiyu emotional speech。
stage 1:使用说话人的数据进行风格初始化,解耦speaking style和linguistic content;
stage 2:使用少量情感数据对模型进行ft,让模型解耦emotional style和linguistic content;
introduction
主要贡献:
- 提出seq2seq的EVC 系统,利用TTS拜托了对平行数据的依赖;
- 可以基于少量情感数据实现;
- 和帧级别VC不同的是,对情感风格进行acoustic和linguistic embedding的对齐,
- 情感数据对WaveRNN vocoder进行ft,进一步提升合成语音表现力
method
基于中科大ASR-TTS-VC的模型框架
- 首先用多人普通TTS数据训练,style encoder含有丰富的说话人+风格的信息,推测其可以学到情感的信息通过少量的情感数据;
- 少量情感数据进行ft,模型参数共享;其中emotional encoder和emotion classifier来自stage 1;
假设的实验论证