SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutter

本文是apple在2021.02.24更新的文章，主要是发布了口吃语料集（sep-28k)，为口吃事件的诊断提供数据，具体的文章链接

https://arxiv.org/pdf/2102.12394.pdf

（最近更新的晚了，主要我最近作息不好。我一直打算把阅读的文章由语音合成扩展到DSP,ASR,NLP等其它方面，但对于DSP,ASR,NLP这些方向的实验做的太少，缺乏实战经验，因此不好评断文章的好坏。计划慢慢做些实验再说）

1 研究背景

口吃语料可以用来医疗系统对口吃的诊断，也可以用来语音识别系统优化，但该语料十分稀少，能找到的一些语料FluencyBank也只有3.6k句数据。另外对于口吃语料的标注也是十分困难，其中图1展示了口吃语句的样例，针对口吃语料的标注，本文使用table 1列取的语句障碍类型，标注了28k的语句（10小时），以便相关人员使用。（目前网上找了一下，语料还没放出来）

2 详细设计和实验

本文使用的架构如图2所示，主要的本文使用ConvLstm代替LSTM，使用concordance correlation coefficient做损失函数。

本文的实验先验证使用ConvLSTM， CCC结构的效果，table2显示可以提高准确度和f1-score,降低错误率。table3实现使用sep-28k和fluencyBank对比，sep-28k差一些，文章说sep-28k包含更多说话人和说话风格所致。图3展示使用sep-28k可以很好增加口吃事件的f1-score。

3 总结

本文主要提供口吃语料sep-28k，以便相关人员进行研究。

语音合成论文优选：口吃语料集SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutte

SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutter

猜你喜欢