1、end-to-end
2、输入输出
-
model1:Tacotron2
-
输入: raw text
-
输出:mel频谱
-
-
model2: Wavenet
-
输入:mel频谱(Tacotron2模型的输出值)
-
输出: waveform
-
3、模型框架
-
Tacotron :总体来说,模型和sequence-to-sequence模型非常相似,大体上由encoder和decoder组成,raw text经过pre-net, CBHG两个模块映射为hidden representation,之后decoder会生成mel-spectrogram frame。
扫描二维码关注公众号,回复:
12912431 查看本文章

-
Tacotron2: Tacotron2使用了一个和Wavenet十分相似的模型来代替Griffin-Lim算法,同时也对Tacotron模型的一些细节也做了更改,最终生成了十分接近人类声音的波形。和Tacotron一样,pre-net的功能是作为bottleneck layer来增加泛化能力和加速收敛。除了Wavenet,Tacotron2和Tacotron的主要不同在于:
-
不使用CBHG,而是使用普通的LSTM和Convolution layer decoder每一步只生成一个frame
-
增加post-net,即一个5层CNN来精调mel-spectrogram
-
4、 评估
-
指标:MOS分数(Mean Opinion Score),平均主观意见分。在国际标准中,统一使用MOS值来评价系统接收到的经过压缩后的话音质量。