Odessey2018:Average Modeling Approach to Voice Conversion with Non-Parallel Data

作者：Haizhou Li
单位：南洋理工
2019icas:Cross-lingual Voice Conversion with Bilingual Phonetic PosteriorGram and Average Modeling的主要参考引用

abstract

利用multi-speaker average model实现说话者无关的语言特征到说话者相关的声学特征的映射。我们提出两个实现（1）在小的target数据集上实现；（2）合成target speech的时候，average model输入说话者身份特征。因为语言信息和声学信息都从同一句话中提取，因此不需要平行数据。

1.introduction

vc的平行数据做source到target 的谱映射；有基于数据参数的方法，比如GMM；还有为了保存谱细节的，spectral warping approach。【12，13】INCA算法做非平行数据的对齐，但是由于精确度问题，语音质量并不高。还有一种替代的方法是现在已有的平行数据集上训练一个general model，再将模型自适应到新的target speaker pair，并因此提出来各种自适应的方法，但他们本质还是依赖平行数据。
我们提出和之前完全不一样的AMA（average model approach),它的优点在于

不基于平行数据就可以完成模型训练；
使用model adaptation technique而不是完全的训练模型；
因为不需要source speech用于训练，因此可以完成many-to-one的任务。

2. Phonetic Posterior Grams based VC

这个部分我们说一下ppgs的优缺点，网络的训练和转换过程如图1所示：
在这里插入图片描述
优点：ppgs是说话者无关的，可以映射到说话者相关的声学特征上。
缺点：虽然不需要平行数据，但是仍然需要大量的target数据训练网络；而且对于每一个target都需要重复训练，造成较大的计算需求。

3. Average Modeling Approach(AMA) to Voice Conversion

我们提出两个方法：（1）用小数据集的target训练模型；(2)说话人身份特征作为输入

3.1 model based-AMA

实验分成三步走（1）先训练一个average model—用multi-speaker数据集中每个人的一句话【MCCs， ppgs】作为网络输入，训练说话者独立的模型 ; (2)自适应—用不超过100句的target speaker的话再训练average model，通过局部或者全局的调优实现；（3）conversion：输入source speech ，得到ppgs和MCCs，送入网络经过正向传递，输出转换语音。

在这里插入图片描述

3.2 feature based-AMA

&emsp；训练的average model对于每一个target speaker都要做自适应，作为改进，我们在输入特征中加入speaker ID,如图3（a)所示，因此不同说话者的输入特征可以被区分。在转换的时候，ppgs+speakerID用于转换。
在这里插入图片描述

4.experiment

4.1 Database and feature extraction

datasets:
用WSJ训练asr模型（37318句），提取42维ppgs（英文）
average model在WSJ和VCC2018数据集上分别挑选4个target speaker，每个target有81句话
average model
为了性能考虑，分别训练男声的模型（17894训练，990验证）和女声的模型（17828训练，930验证）
WORLD声码器提取513维线性谱，1维韵律系数，1维F0
signal precessing tookit生成40维MCCs
模型
model-based AMA:输入42维ppgs,输出127（F0+韵律+MCC+…）
future-based AMA:输入42维ppgs&one-hot vector(男声144，女声142）

4.2 baseline and setup

ML-GMM—DTW做source和target的对齐，81句训练
PPG-LSTM—2层LSTM，70句训练，11句验证
M-AMA
F-AMA

5. evaluation

客观评价
MCD:值越低，表明合成的性能越好
对model-based AMA做自适应调整，包括网络、自适应的数据量、
在这里插入图片描述

主观评价
AB preference test
XAB test