SEGAN: Speech Enhancement Generative Adversarial Network

论文分析:

论文原文地址

一、引言

经典的语音增强(speech enhancement)方法有谱减法(spectral subtraction)、维纳滤波(Wiener filtering)、统计模型(statistical model-based methods)和子空间算法(subspace algorithms)。

论文结合GAN网络提出了SEGAN,并通过实验发现,SEGAN主要优势有以下三点:

1、提供一个快速语音增强过程,没有因果关系是必要的,因此没有像RNN那样的递归操作。

2、它基于原始音频做处理,没有提取特征,因此没有对原始数据做出明确的假设。

3、从不同的说话人和噪声类型中学习,并将他们合并到相同的共享参数中,这使得系统在这些维度上变得简单和一般化。

二、Generative Adversarial Networks

  论文的第二部分,是介绍GAN的,如果有GAN的基础可以跳过这一节。GAN网络是一种对抗模型,可以将样本服从Z分布的样本映射到服从X分布的x。

关于GAN的更多解释:

  有人说GAN强大之处在于可以自动的学习原始真实样本集的数据分布。为什么大家会这么说。

对于传统的机器学习方法,我们一般会先定义一个模型让数据去学习。(比如:假设我们知道原始数据是高斯分布的,只是不知道高斯分布的参数,这个时候我们定义一个高斯分布,然后利用数据去学习高斯分布的参数,最终得到我们的模型),但是大家有没有觉得奇怪,感觉你好像事先知道数据该怎么映射一样,只是在学习模型的参数罢了。

GAN则不同,生成模型最后通过噪声生成一个完整的真实数据(比如人脸),说明生成模型已经掌握了从随机噪声到人脸数据的分布规律。有了这个规律,想生成人脸还不容易,然而这个规律我们事先是不知道的,我们也不知道,如果让你说从随机噪声到人脸应该服从什么分布,你不可能知道。这是一层层映射之后组合起来的非常复杂的分布映射规律。然而GAN的机制可以学习到,也就是说GAN学习到了真实样本集的数据分布。

三、Speech Enhancement GAN 以及 实验步骤

整个网路全部是由CNN组成,下图是生成器G,他是一个encooder-decoder。D的结构是encoder,上面接了一个降维层。将8*1024个参数降维8个。

encoder由步长为2的1维卷积层构成。16384×1, 8192×16, 4096×32, 2048×32, 1024×64, 512×64, 256×128, 128×128, 64×256,32×256, 16×512, and 8×1024。

 图二:生成器,encoder-decoder

至于SEGAN训练,其实跟普通的GAN很类似,如下图所示,先训练一个判别器D,D的输入为纯净信号和经过生成器增强后的信号。然后在固定判别器,改变生成器G的参数。

言语强化训练。虚线代表梯度反向支柱。

其中,有一点,在初步实验中,我们发现在G的损失中增加一个次要成分是很方便的,以便将它的世代与干净的例子之间的距离减至最小。 为了测量这种距离,我们选择了L1范数,因为它已被证明在图像处理领域有效。

最终G的损失函数如下所示:

 

四、结果

分为客观和主观评价两个部分。

4.1  客观评价

客观评价有以下几个指标,都是越大越好:

PESQ: Perceptual evaluation of speech quality, using the wide-band version recommended in ITU-T P.862.2 (from –0.5 to 4.5).
主观语音质量评估,虽然叫主观,实际还是个客观的值。

CSIG: Mean opinion score (MOS) prediction of the signal distortion attending only to the speech signal(from 1 to 5).

CBAK: MOS prediction of the intrusiveness of background noise (from 1 to 5).

COVL: MOS prediction of the overall effect(from 1 to 5).

SSNR: Segmental SNR (from 0 to ∞).

可以看到,SEGAN在PESQ指标上表现稍微差一点。在所有其他指标上,这些指标更与语音失真有关系,SEGAN都比wiener更好。SEGAN产生更少的语音失真(CSIG)和移除噪声更有效(CBAK和SSNR)。所以,SEGAN能在二者之间取得更好的权衡。

4.2  主观评价

主观描述,就是一段音频,给出它原始音频、wiener处理的音频、segan处理后的音频,不显示具体哪个对应哪个,让被测试者打分,1-5之间,分数越高代表越好。 16个测试者,20个句子。效果如下图。

五、总结

在这项工作中,端对端语音增强方法已经在生成对抗框架内实施。该模型使用编码器-解码器完全卷积结构,使得它能够快速操作来对波形块进行去噪。 结果表明,不仅该方法是可行的,而且它也可以作当前方法的有效替代。

 

 

 

 

 

 

 

猜你喜欢

转载自www.cnblogs.com/LXP-Never/p/9986744.html
今日推荐