语音合成论文优选：自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文是中国科学技术大学在2021.02.27更新的文章，主要工作是对合成的音频进行MOS值得预测，从而减少大量劳动力，具体的文章链接

https://arxiv.org/pdf/2103.00110.pdf

（最近想搭建模型自动测试系统，因此看了MOS自动打分系统相关文章，感觉主要还是数据）

1 研究背景

我们知道语音合成系统的好坏最直观的判断是合成的音频质量好坏，这就是我们常用的MOS( mean opinion score)值，但MOS值得打分需要许多领域内的人员进行打分，这需要昂贵的人力资源和时间开销，因此自动打分MOS的系统被提出，比如MOSNET,AutoNET等等。但以前的系统训练都是一条语句对应一个均值，这忽略了每个打分人之间的偏差，本系统就是在现有的系统上增加变差模块，更好的获取MOS值。

2 详细设计

其实系统很简单，如图1所示：Mean score和judge score。mean score跟以前一样，一条一句对应一个mos值，judge score对每位打分人员打的分与均值之间的偏差进行判断，整个句子的MOS值为mean score + judge Score。系统的参数为图3所示。（这样的系统感觉还是数据最可贵）

扫描二维码关注公众号，回复： 12909401 查看本文章

3 实验

本文主要与Mosnet进行对比，由以下几个对比试验，本文的MBNet比现有的MOSNet较优。

4 总结

本文提出了MBNet系统，可以使语音的MOS估计更加准确。

语音合成论文优选：自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

猜你喜欢