会议:2020 interspeech
作者:Songxiang Liu, Shiyin Kang,Helen Meng
单位:The Chinese University of Hong Kong, Tencent AI Lab
abstract
- 情感VC:说话者想要表达的信息不仅包含speech的内容,也包含在speech中的一些情感、重读也中。
- 本文提出一种基于非平行数据sequence-to-sequence的EVC
1. introduction
- 将speech拆成几个部分:Y-文本;Z: speaking style;S:speaker;R:rhythm
- 韵律表征音素的时间内容,因此和Z/Y相关
2. Proposed approach
- rhythm:加一个预测rhythm的模块,和duration predictors的作用差不多,输出phn对应的持续时间,是整数序列
- style embedding:用GST建模;