语音合成论文优选:自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文是中国科学技术大学在2021.02.27更新的文章,主要工作是对合成的音频进行MOS值得预测,从而减少大量劳动力,具体的文章链接

https://arxiv.org/pdf/2103.00110.pdf

(最近想搭建模型自动测试系统,因此看了MOS自动打分系统相关文章,感觉主要还是数据)

1 研究背景

我们知道语音合成系统的好坏最直观的判断是合成的音频质量好坏,这就是我们常用的MOS( mean opinion score)值,但MOS值得打分需要许多领域内的人员进行打分,这需要昂贵的人力资源和时间开销,因此自动打分MOS的系统被提出,比如MOSNET,AutoNET等等。但以前的系统训练都是一条语句对应一个均值,这忽略了每个打分人之间的偏差,本系统就是在现有的系统上增加变差模块,更好的获取MOS值。

2 详细设计

其实系统很简单,如图1所示:Mean score和judge score。mean score跟以前一样,一条一句对应一个mos值,judge score对每位打分人员打的分与均值之间的偏差进行判断,整个句子的MOS值为mean score + judge Score。系统的参数为图3所示。(这样的系统感觉还是数据最可贵)

扫描二维码关注公众号,回复: 12909401 查看本文章

3 实验

本文主要与Mosnet进行对比,由以下几个对比试验,本文的MBNet比现有的MOSNet较优。

4 总结

本文提出了MBNet系统,可以使语音的MOS估计更加准确。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/114334556
今日推荐