Interspeech 2020 DNS Challenge数据集下载方法

最近要用DNS Challenge2020(第一届)的数据集,发现github上是新版的,不是我所需要的版本。官方文档也比较混乱,故写此文,简单分享下2020dataset下载方法。

官方下载方法

github repo地址:

microsoft/DNS-Challenge at interspeech2020/master (github.com)

首先打开命令行,直接将repo clone下来:

git clone https://github.com/microsoft/DNS-Challenge.git

cd DNS-Challenge

下一步,安装并配置git lfs(Git Large File Storage)。2020版本dataset用git lfs管理数据,我们配置如下:

git lfs install

git lfs track "*.wav"

git add .gitattributes

官方文档中说要配置multiprocessing等等的cfg文件,这些都是和后续合成相关的,现在并不需要执行。我们接下来把branch切换到2020branch,就会自动开始下载了:

git checkout interspeech2020/master

命令行显示Updating files,表示已经开始下载,现在只需等待。时间较久,需要耐心。完成后,datasets/ 目录下就是下载到的数据集。

数据集分为人声语音和噪音两部分,需要自行合成带噪音的人声,以用于训练。后续具体的合成方法请参照官方文档。

猜你喜欢

转载自blog.csdn.net/weixin_60253080/article/details/131382801
DNS