语音合成论文优选:口吃语料集SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutte

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutter

本文是apple在2021.02.24更新的文章,主要是发布了口吃语料集(sep-28k),为口吃事件的诊断提供数据,具体的文章链接

https://arxiv.org/pdf/2102.12394.pdf

(最近更新的晚了,主要我最近作息不好。我一直打算把阅读的文章由语音合成扩展到DSP,ASR,NLP等其它方面,但对于DSP,ASR,NLP这些方向的实验做的太少,缺乏实战经验,因此不好评断文章的好坏。计划慢慢做些实验再说)

1 研究背景

口吃语料可以用来医疗系统对口吃的诊断,也可以用来语音识别系统优化,但该语料十分稀少,能找到的一些语料FluencyBank也只有3.6k句数据。另外对于口吃语料的标注也是十分困难,其中图1展示了口吃语句的样例,针对口吃语料的标注,本文使用table 1列取的语句障碍类型,标注了28k的语句(10小时),以便相关人员使用。(目前网上找了一下,语料还没放出来)

2 详细设计和实验

本文使用的架构如图2所示,主要的本文使用ConvLstm代替LSTM,使用concordance correlation coefficient做损失函数。

本文的实验先验证使用ConvLSTM, CCC结构的效果,table2显示可以提高准确度和f1-score,降低错误率。table3实现使用sep-28k和fluencyBank对比,sep-28k差一些,文章说sep-28k包含更多说话人和说话风格所致。图3展示使用sep-28k可以很好增加口吃事件的f1-score。

3 总结

本文主要提供口吃语料sep-28k,以便相关人员进行研究。

猜你喜欢

转载自blog.csdn.net/liyongqiang2420/article/details/114391391