【语音增强论文解读05】FULLY CONVOLUTIONAL RECURRENT NETWORKS FOR SPEECH ENHANCEMENT

作者:Maximilian Strake Bruno Defraene Kristoff Fluyt Wouter Tirry Tim Fingscheidt

1. 动机

        在CRN中通过在卷积编码器和解码器之间集成了LSTM,在这样的结构中,对于完全连接的LSTM,必须放弃特征映射中内部表示的组织和对卷积映射的局部结构的关注。由于LSTM输入的特征空间维度,CRN可能会受到限制。

2. 方法

        使用卷积的LSTM代替CRN中完全连接的LSTM,由此产生的网络称为FCRN,并且卷积的LSTM保留了输入特征映射的结构化组织,可以在内部表示语音的谐波,并且使用较少的可训练参数来处理高维特征。使用权重共享较少参数量。

3. CED结构

        如图特征表示的大小在每一层之前和之后给出,feature axis size×time axis size×number of feature maps, 其中time axis size大小始终设置为 1,使网络能够处理单帧数据。feature axis size和输入number of feature maps分别由 M 和 C 决定。feature axis上的步长为2,

4. 卷积LSTM

5. 实验

5.1 数据和预处理

        用于系统训练和评估的数据基于来自 TIMIT [17] 和 NTT 超宽带 (美国和英国英语子集)数据库的总共 7.5 小时的干净语音材料。对于训练,在3个SNR条件下(0、5和10 dB),4.5小时的干净语音与5种不同类型的噪音(来自QUT数据库[19]的3种咖啡馆噪声类型和来自AURORA-2的餐厅噪声和babble噪声)混合,导致训练集的总持续时间为4.5·5·3=67.5小时。开发和测试集以相同的方式构建,每个使用 1.5 小时的干净语音,其中说话者在三组之间不重叠。使用干净的测试集语音文件和来自 ETSI 数据库的两种未见噪音类型(酒吧和呼叫中心噪声)构建了一个使用未见噪声类型的附加测试集。对于评估,使用了额外的 -5 和 15 dB 的看不见的 SNR 条件。所有数据都被下采样到 8 kHz,并使用长度为 256 的帧(帧位移为 128)和平方根 Hann 窗口以及大小为 K = 512 的 DFT 以及相应的零填充来提取特征和训练目标。

5.2 基线

        所有评估模型都采用第 3.1 节中描述的基本 CED 架构,过滤器内核的数量和大小设置为 F = 88 和 N = 24。 使用Adam优化。

 5.3 实验结果

         比较PESQ和∆SNRseg值对于可见和不可见噪声类型测试集,可以观察到FCRN ConvLSTM88对不可见噪声类型的更好泛化,测试集相对于CRN LSTM9的优势从可见噪声类型的0.08点和0.94 dB增加到不可见噪声类型的0.10点和1.03 dB。与所有评估模型的噪声语音相比,STOI的可懂度显著提高。同样,提出的FCRN ConvLSTM88在两个测试集上的可理解性得分最高。

        为了进一步分析使用 FCRN 在 CRN 上观察到的性能改进的原因,我们将我们提出的 FCRN ConvLSTM88 的 ConvLSTM 层之前和之后的特征表示与 CRN LSTM9 的 LSTM 层之前和之后的特征表示进行了比较。

扫描二维码关注公众号,回复: 14966600 查看本文章

        在 LSTM 输入端,特征图包含目标清晰语音频谱的清晰可观察的谐波结构,而这些局部结构并未保留在 LSTM 输出端的特征图中。这种观察不仅适用于此处显示的示例,而且适用于 LSTM 层之后的所有特征图,也可以使用更大的 CRN LSTM20 模型观察到。相比之下,ConvLSTM 输入中存在的目标语音频谱的谐波结构可以保留在输出的几个特征图中。因此,由于关注的正是卷积核映射所固有的这种局部结构,因此使用全连接lstm时,与EFP块中的convlstm相比,接下来的卷积层更难以重构干净的语音谐波结构。

6. 结论

        FCRN相比于CRN,用卷积LSTM (ConvLSTM)取代了典型卷积循环网络(crn)中使用的全连接LSTM。通过对内部特征表示的可视化,我们发现 ConvLSTM 与全连接 LSTM 相比,能够保留其输入特征中存在的频谱谐波的局部结构,因此使 FCRN 更容易利用这一点信息来估计干净的语音频谱。

猜你喜欢

转载自blog.csdn.net/qq_41893773/article/details/124159199