语音合成论文优选:鲁棒性transformerTTS RobuTrans: A Robust Transformer-Based Text-to-Speech Model

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

RobuTrans: A Robust Transformer-Based Text-to-Speech Model

本文是电子科技大学计算机科学与工程学院发表在AAAI-20上的文章,主要解决TTS的对齐的鲁棒性问题,具体的文章链接https://pdfs.semanticscholar.org/6246/b5a7b962577d4e15bb80637a000df77bd3f6.pdf?_ga=2.103062528.1670017614.1611716199-2045376942.1610888043

1 研究背景

基于encoder-attention-decoder的语音合成系统经常出现漏字,重复字,含混不清等问题(图5所示),虽然已经很多工作提出monotonic attention, forward attention等强制对齐的机制,但依然无法解决问题。本文在transformerTTS(图1所示)的基础上进行修改,获得更加鲁棒的系统,实验结果显示合成的语音质量相等情况,系统更加鲁棒。

2 详细设计

 本文阐述目前的transformerTTS的存在的三个问题:1)无限制的attention。transformerTTS的思想是借鉴NMT,但NMT的任务跟TTS很不同,他不具有序列性的对应关系,即不具有单向性对齐,如果直接使用transformer的话,则会出现图2所示的对齐问题(左边整齐对齐,右边错误对齐)。2)不精确的stop预测,因为合成的句子中stop token只有一个,大部分为0,这造成预测不准确会过早或者过晚停止。3)长句子合成不自然。

未解决以上的问题,本文提出以下的系统RobuTrans(图3显示),相对于TransformerTTS做以下修改:1)encoder的数据特征包含音素和韵律特征;这将使合成的音频更自然;2)duration predictor,添加音素的时长预测模型;3)删除cause self-attention,修改成pseudo non-causal attetion(PNCA),PNCA的结构图4展示,它的输入包括整个句子的encoder的隐状态。4)删除position embedding,使其可以合成长句子。

3 实验

本文总结了几类容易出错而我文本类型,具体如table 1所示,在鲁棒性测试中,327句子中robutrans和fastspeech没有bad case,transformerTTS有237个,tacotron2有35个。在MOS测试(table 2), 本文跟tacotron2和transflrmerTTS差不多,但好于fastspeech。另外本文也对其它的attention进行对比。

4 总结

TransformerTTS语音合成系统经常出现漏字,重复字,含混不清等问题,本文在transformerTTS的基础上进行修改,获得鲁棒性好,合成质量高的系统。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/113273015
今日推荐