第一次参加 CHiME-6 challenge 总结

第一次参加chime的自然场景多人对话远场语音识别评测

主要负责数据增强和音频信号处理

冲着高分去的,但由于最终的transcriptions包含了特殊symbol, 本来达到了既定目标,但修改之后最终结果并没有达到预期,

有几点记录一下:

1.  GSS + ASR alignment是能稳定提升1.5%的识别率的,取决于用什么ASR模型进行alignment了,这个的目的就是去找有效音,因为原始的用时间戳的对齐方法,对每一帧他是不会标注出“静音”帧的。 vad同理能在这里取得不错的效果,但是没有ASR的好。 GSS alignment在pb_chime5 需要改一下数据处理的不稳已经标注部分,但是chime-7大概率换了批数据,所以这个算法以后大概率不会在用到了,毕竟比现在的pit,danet等算法更不实用,出来的音频更失真。把GSC修改成mask-based会更好

2.根据房间参数生成RIR会更好

3.cnn-tdnnf还是王道

4.这种比赛还是对同一场景下的数据过拟合会更好

5.Separation的作用与BF搭配能超越传统BF,利用separation 估计一个mask出来再传入bf,能比市面上任何BF都好

6.没有实验ROVER的fusion结果,但lattice-combine 能达到不错的结果,我相信ROVER应该会更好

7.wpe做stft时需要做fading和pad,不然效果会不好,甚至雪崩

8.做alignment时要把subsample设置为1

虽然成绩没出来,但排名应该不会特别高,争取下次努力冲!

发布了17 篇原创文章 · 获赞 37 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/robingao1994/article/details/105518227
今日推荐