语音合成论文优选:个性化AdaSpeech: Adaptive Text to Speech for Custom Voice

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

AdaSpeech: Adaptive Text to Speech for Custom Voice

本文是微软亚洲研究院在2021.03.01更新的文章,主要做个性化的工作,使语音定制的质量更高,更新的参数更少,具体的文章链接

https://arxiv.org/pdf/2103.00993.pdf

demo链接

https://speechresearch.github.io/adaspeech/

1 研究背景

语音合成个性化是使用少量数据(几分钟或者几秒钟语音)进行语音定制,现有的方案都是先进行basemodel的训练,然后使用少量数据进行微调​。现有的个性化面临的​挑战:1)模型需要支持与训练模型不同的声学条件,因为定制的语音在韵律,音色,环境等等都​不同;2) 需要支持更多的语音定制,则自适应的​参数应该尽可能的少。为了解决以上的两个问题,本文设计了AadSpeech,其主要方式1)为处理不同的声学条件,本文添加了句子和音素级别声学模型​。2)为减少更新的参数量,提出conditional layernorm,只更新speaker embedding和该层​即可。

2 详细设计

本文的设计是在fastspeech2基础进行,其架构如图1所示,红色部分为本文添加的模块​。其中Acoustic Condition Modeling是提供声学特征,其结构图2(a)所示,其包括句子级别(图b)和音素级别(图c)​。其中图2(c)和2(d)的架构是一样,主要区别是先使用声学特征训练音素级别的(c)结构,然后使用训练的c来引导d的训练,这样使用语言特征即可推出音素的声学特征​。另外condition layerNorm的结构如图3所示,自适应阶段只要更新生成scale和bias的生成矩阵,其计算公式为公式1​。其整个的预训练,微调和推理阶段算法​为算法1所示。

3 实验

本文的实验baseline(spk emb)是在fastspeech2上只更新speaker embedding,该基准作为下界,baseline(decoder)是更新​decoder部分。其中SMOS是相似度​。由table1所示,本文的AdaSpeech在MOS和SMOS都稍微好于baseline(decoder),而且更新的参数量少于baseline(decoder)​。

接下来实验是验证每个模块的功能,当去掉句子级别,音素级别和CLN,其结果​都下降。图4展示句子级别的聚类情况,另外图4b展示使用句子量作语音定制的情况,10句话基本上就稳定​了。

4 总结

现有的个性化面临的挑战:1)模型需要支持与训练模型不同的声学条件;2) 需要支持更多的语音定制,则自适应的参数应该尽可能的少。​本文设计了AadSpeech 1)添加了句子和音素级别声学模型。2)提出conditional layernorm,减少更新参数量。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/114288741