语音合成论文优选：鲁棒性transformerTTS RobuTrans: A Robust Transformer-Based Text-to-Speech Model

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

RobuTrans: A Robust Transformer-Based Text-to-Speech Model

本文是电子科技大学计算机科学与工程学院发表在AAAI-20上的文章，主要解决TTS的对齐的鲁棒性问题，具体的文章链接https://pdfs.semanticscholar.org/6246/b5a7b962577d4e15bb80637a000df77bd3f6.pdf?_ga=2.103062528.1670017614.1611716199-2045376942.1610888043

1 研究背景

基于encoder-attention-decoder的语音合成系统经常出现漏字，重复字，含混不清等问题（图5所示），虽然已经很多工作提出monotonic attention, forward attention等强制对齐的机制，但依然无法解决问题。本文在transformerTTS（图1所示）的基础上进行修改，获得更加鲁棒的系统，实验结果显示合成的语音质量相等情况，系统更加鲁棒。

2 详细设计

本文阐述目前的transformerTTS的存在的三个问题：1）无限制的attention。transformerTTS的思想是借鉴NMT，但NMT的任务跟TTS很不同，他不具有序列性的对应关系，即不具有单向性对齐，如果直接使用transformer的话，则会出现图2所示的对齐问题（左边整齐对齐，右边错误对齐）。2）不精确的stop预测，因为合成的句子中stop token只有一个，大部分为0，这造成预测不准确会过早或者过晚停止。3）长句子合成不自然。

未解决以上的问题，本文提出以下的系统RobuTrans（图3显示），相对于TransformerTTS做以下修改：1）encoder的数据特征包含音素和韵律特征；这将使合成的音频更自然；2）duration predictor，添加音素的时长预测模型；3）删除cause self-attention,修改成pseudo non-causal attetion(PNCA)，PNCA的结构图4展示，它的输入包括整个句子的encoder的隐状态。4）删除position embedding，使其可以合成长句子。

3 实验

本文总结了几类容易出错而我文本类型，具体如table 1所示，在鲁棒性测试中，327句子中robutrans和fastspeech没有bad case，transformerTTS有237个，tacotron2有35个。在MOS测试（table 2)，本文跟tacotron2和transflrmerTTS差不多，但好于fastspeech。另外本文也对其它的attention进行对比。

4 总结

TransformerTTS语音合成系统经常出现漏字，重复字，含混不清等问题，本文在transformerTTS的基础上进行修改，获得鲁棒性好，合成质量高的系统。

语音合成论文优选：鲁棒性transformerTTS RobuTrans: A Robust Transformer-Based Text-to-Speech Model

猜你喜欢