Transferring Source Style in Non-Parallel Voice Conversion

会议:2020 interspeech
作者:Songxiang Liu, Shiyin Kang,Helen Meng
单位:The Chinese University of Hong Kong, Tencent AI Lab

abstract

  • 情感VC:说话者想要表达的信息不仅包含speech的内容,也包含在speech中的一些情感、重读也中。
  • 本文提出一种基于非平行数据sequence-to-sequence的EVC

1. introduction

在这里插入图片描述

  • 将speech拆成几个部分:Y-文本;Z: speaking style;S:speaker;R:rhythm
  • 韵律表征音素的时间内容,因此和Z/Y相关

2. Proposed approach

在这里插入图片描述

  • rhythm:加一个预测rhythm的模块,和duration predictors的作用差不多,输出phn对应的持续时间,是整数序列
  • style embedding:用GST建模;

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/113745406
今日推荐