Parallel-data-free voice conversion using cycle-consistent adversarial networks

会议:EUSIPCO 2018
单位:日本NTT

1. abstract

本文实现不需要平行数据,不需要额外的数据,模型,对齐方式实现的高质量,通用的语音转换。用带门控CNN的CycleGAN-VC实现,用adversarial 和cycle consistent loss同时进行正向和反向的映射,从而在不匹配的数据中找到最佳的伪对(psedu paired)。

2. introduction

adversarial loss可以减少转换语音的过平滑(adversarial loss不需要精确的密度估计),identity mapping loss保证文本信息的保存,门控CNN可以建立时序的,层次的结构,同时有助于保存文本信息。

3. cycle-GAN

3.1.1 adversarial loss

source-x, target-y,只是判断是否将source转换到target相同的空间分布
(疑问:那个是source-target对怎么挑选??)
在这里插入图片描述

3.1.2 cycle-consistent loss

在这里插入图片描述

总的function
在这里插入图片描述

3.2 cycle-GAN-VC

对cycle-GAN的修正主要是2点:(1)门控CNN(2)identity-mapping loss

3.2.1 门控CNN

要建模语音的时序性,可以用RNN,但是并行很难,计算消耗大。因此用门控CNN代替,激活函数是GLU(gated-linear units)。
在这里插入图片描述

3.2.2 Identity-mapping loss

在这里插入图片描述adversarial loss想要保留文本信息,但是not sufficient,因此额外在加Identity-mapping loss用于文本信息保留。(作者有做实验,不要Identity-mapping loss,性能下降很多)
在cycle-GAN的实验中,这一项的加入证明了可以保留颜色。

4. EXPERIMENTS

在这里插入图片描述

4.1. Experimental conditions

数据集:VCC2016 (5male, 5female),挑选其中的4人(2男2女,2 -src, 2-tar),每个人216个短句子(~13min, 162 for training, 54 for evaluation, 为了保证non-parallel, src-tar的挑选分开,前后81句)
特征:16k, 24 D MCEP, LF0, AP映射到 MCEP

扫描二维码关注公众号,回复: 8525639 查看本文章
4.1.2 Implementation details

生成器用1 D 卷积,判别器用2D卷积
将source和target MCEPs的每一维进行归一化
为了训练稳定,用最小二乘(a least squares loss)替代 L a d v L_{adv} 中的负的对数似然, λ c y c = 10 \lambda_{cyc}=10
1 0 4 10^4 iteration 内 λ c y c = 5 \lambda_{cyc}=5
为了确保随机性,每次随机挑一个句子随机裁剪128帧,batch_size=1

4.2. Objective evaluation

和基于平行数据的GMM-VC比较(因为作者写文时,GMM-VC尚可与DNN-VC性能比拟)
没有用MCD比较,因为MCD由于高斯分布的假设,更倾向over-smoooth的结果。

比较指标:
GV
MS

4.3. Subjective evaluation

自然度和相似度(within-gender, cross-gender)的测试

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103687149