声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS
本文是格勒诺布尔阿尔卑斯大学在interspeech2020发表的文章,主要做增量式tts,具有较低的时延,具体的文章链接
https://www.isca-speech.org/archive/Interspeech_2020/pdfs/2103.pdf
(增量式tts还是较为新奇的方向)
1 研究背景
在ASR和翻译系统中,一句话没说完就要显示结果,这样的系统增强系统的交互体验。而现在的语音合成系统都是一句话完整的输入到系统中,这对于个人智能助手等软件需要等待一句话完整获取后才能进行合成。本文提出了增量式tts(iTTS:incremental neural TTS),只要向后边看几个字就可以进行合成,并给出实验展示iTTS的影响参数调节。
2 详细设计
本文是在tacotron系统上进行的实验,encoder和decoder都要做相应的处理。encoder的处理如table1所示,其中n代表一句话中该word的位置,k是向后看几步。decoder部分的如图1所示,合成增量的每部分音频,然后进行拼接。
3 实验结果
先看一下encoder部分增量k对每个word的影响,其中对比的为原始tacotron系统full,就是处理整个句子。可以看出随着k增大,其结果趋近于原始full的结果。图3的结果亦是如此,其中选择k=2的情况,可以较好的实现iTTS。table2给出了各种参数对iTTS的效果影响。table4显示合成音频的质量受到k的大小影响。
4 总结
本文提出了增量式tts(iTTS:incremental neural TTS),只要向后边看几个字就可以进行合成,并给出实验展示iTTS的影响参数调节。(这样的系统主要获取低延时的交互中,也是一种实现方式)