Odessey2018:Average Modeling Approach to Voice Conversion with Non-Parallel Data

作者:Haizhou Li
单位:南洋理工
2019icas:Cross-lingual Voice Conversion with Bilingual Phonetic PosteriorGram and Average Modeling的主要参考引用

abstract

 利用multi-speaker average model实现说话者无关的语言特征到说话者相关的声学特征的映射。我们提出两个实现(1)在小的target数据集上实现;(2)合成target speech的时候,average model输入说话者身份特征。因为语言信息和声学信息都从同一句话中提取,因此不需要平行数据。

1.introduction

 vc的平行数据做source到target 的谱映射;有基于数据参数的方法,比如GMM;还有为了保存谱细节的,spectral warping approach。【12,13】INCA算法做非平行数据的对齐,但是由于精确度问题,语音质量并不高。还有一种替代的方法是现在已有的平行数据集上训练一个general model,再将模型自适应到新的target speaker pair,并因此提出来各种自适应的方法,但他们本质还是依赖平行数据。
 我们提出和之前完全不一样的AMA(average model approach),它的优点在于

  • 不基于平行数据就可以完成模型训练;
  • 使用model adaptation technique而不是完全的训练模型;
  • 因为不需要source speech用于训练,因此可以完成many-to-one的任务。

2. Phonetic Posterior Grams based VC

 这个部分我们说一下ppgs的优缺点,网络的训练和转换过程如图1所示:
在这里插入图片描述
优点:ppgs是说话者无关的,可以映射到说话者相关的声学特征上。
缺点:虽然不需要平行数据,但是仍然需要大量的target数据训练网络;而且对于每一个target都需要重复训练,造成较大的计算需求。

3. Average Modeling Approach(AMA) to Voice Conversion

 我们提出两个方法:(1)用小数据集的target训练模型;(2)说话人身份特征作为输入

3.1 model based-AMA

实验分成三步走(1)先训练一个average model—用multi-speaker数据集中每个人的一句话【MCCs, ppgs】作为网络输入,训练说话者独立的模型 ; (2)自适应—用不超过100句的target speaker的话再训练average model,通过局部或者全局的调优实现;(3)conversion: 输入source speech ,得到ppgs和MCCs,送入网络经过正向传递,输出转换语音。

在这里插入图片描述

3.2 feature based-AMA

 训练的average model对于每一个target speaker都要做自适应,作为改进,我们在输入特征中加入speaker ID,如图3(a)所示,因此不同说话者的输入特征可以被区分。在转换的时候,ppgs+speakerID用于转换。
在这里插入图片描述

4.experiment

4.1 Database and feature extraction

datasets:
用WSJ训练asr模型(37318句),提取42维ppgs(英文)
average model在WSJ和VCC2018数据集上分别挑选4个target speaker,每个target有81句话
average model
为了性能考虑,分别训练男声的模型(17894训练,990验证)和女声的模型(17828训练,930验证)
WORLD声码器提取513维线性谱,1维韵律系数,1维F0
signal precessing tookit生成40维MCCs
模型
model-based AMA:输入42维ppgs,输出127(F0+韵律+MCC+…)
future-based AMA:输入42维ppgs&one-hot vector(男声144,女声142)

4.2 baseline and setup

  • ML-GMM—DTW做source和target的对齐,81句训练
  • PPG-LSTM—2层LSTM,70句训练,11句验证
  • M-AMA
  • F-AMA

5. evaluation

客观评价
MCD:值越低,表明合成的性能越好
 对model-based AMA做自适应调整,包括网络、自适应的数据量、
在这里插入图片描述

主观评价
AB preference test
XAB test

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/88783894
今日推荐