语音增强与现状趋势分析

本文主要的参考文献来自于语音及语言信息处理国家工程实验室的一篇演讲报告


1、语音增强的目标:

受体是机器,目标是提高语音的可懂度(intelligibility)

受体是人,目标是提高语音的质量(quality)


2、语音增强的任务:

语音降噪、语音分离、语音解混响,增强技术很多情况下并不是独立的,而是需要联合处理和优化。例如,语音解混
响与降噪,卷积盲源分离与降噪等等


3、研究现状和趋势:

语音增强主要包括三个方面:语音降噪、语音分离和语音解混响(可以包含回声消除)问题。根据接收信号的通道个数不同又分为单通道和多通道(特别强调二麦情况,因为与人类双耳对应)等不同情况。基本的算法都是从混合信号和干净信号建立的接收信号模型出发,考虑空间(spatial)、时间(temporal)和谱特性(spectra)三个维度的信息和信号处理问题;当然空间信息需要对应多麦克风情况,单麦克风没有spatial信息可以利用。

扫描二维码关注公众号,回复: 1035980 查看本文章

1)语音降噪研究现状

无监督语音降噪算法:

   谱减法

将估计的噪声的功率谱并将其从嘈杂语音中减去;

没有利用明确的语音模型,其性能在很大程度上叏决亍对干扰源的频谱跟踪的好坏,容易产生“无中生有”的音乐 噪声;

基于统计模型的方法

语音增强问题归入到一个统计的估计框架中,如Wiener滤波、最小均方误差(MMSE)和最大后验(MAP)法;

一般需要假设语音信号和噪声信号是统计独立的,且服从特定分布;
目前来说,模型参数的鲁棒估计还是一个比较困难的问题;

基于子空间的斱法
假设干净的语音信号子空间和噪声子空间是正交的;
这种子空间正交的假设在实际情况中,特别是短时的情冴下是非常不精确的;

传统的方法对平稳噪声的抑制效果比较显著,但是对于非平稳噪声,其往往不能得到很好的降噪效果

有监督条件下语音降噪算法:

基于模型的方法
因为跟二语音分离信号模型框架基本相似,参考语音分离部分的内容。

深度神经网络类算法

构造足够多的混响数据和对应干净数据进行MMSE或者其他标准下的训练得到模型。

关键点在于:数据规整、归一化/模型泛化/测试不训练的不匹配/Specific adaptation (如说话人、噪声环境、混响时间等等)。

有监督类算法对于非平稳噪声往往能得到更好的降噪效果


2)语音分离研究现状

无监督语音分离算法:

滤波法:

ICA滤波器;(单通道–时频域实现,多通道均可)

多通道波束滤波器;(Beamforming,多通道)

听觉场景分析:(CASA, 单通道,多通道均可)

基音周期的鲁棒估计和追踪问题;高频部分的浊音分离问题;序列聚类问题;清音的分离问题;聚类后的二值时频掩码平滑问题。



有监督条件下语音分离算法:

基于模型的方法:

采用预先训练的模型(参数戒者pattern)来描述每个源信号,而这个模型则作为分离阶段的先验知识。(训练(训练集)–测试(测试集))
参数类:正弦参数模型、AR和variance(LPC)参数、GMM参数描述各语音分布以及mix分布
Pattern类:矢量量化(VQ)、字典学习类算法(DL、SNMF和SCMF以及PLCA类)
测试:一般将混合信号带入到训练得到的参数模型构建的干净语音的可能组合所建立的距离目标凼数中,利用优化算法求解最优参数选择,然后利用得到的参数构建滤波器;
上述模型和HMM结合产生的更好描述信号Temporal性质的算法:
AR-HMM;FSHMM;以及N-FHMM。

深度神经网络类算法:


3)语音解混响研究现状:

无监督语音解混响算法:

基于复倒谱域的滤波算法(单、多通道):

在复倒谱域纯净语音信号的复倒谱通常分布在靠近原点的附近,而房间冲击响应的复倒谱主要分布在远离原点的地斱。一般采用低通滤波器的低时窗滤除相应的混响部分,然后再通过逆向操作,获得解混响的声源信号。

基于波束形成的算法(多通道):

定方向信号,大幅降低其他方向的干扰和混响成分;
要实现比较好的效果的话,对麦克风数目要求比较多;
单通道的语音解混响问题丌能运用此类斱法。

抑制后期混响的谱减法(单、多通道):

该类算法一般区分混响语音为前期混响成分和后期混响成分。利用统计方法和混响时间模型估计后期混响成分的差,然后构建时滤波数实现去除后期混响成分的功能;
一般应用
单通道解混响者和其他解混响算法共同使用;
该类算法一般在能量谱域实现,算法比较稳健,但由
非线性变换破坏相位,能放置在其他需要相位信息的增强算法之前。

线性滤波器法(单、多通道—以多通道研究为主):

逆滤波器法:通过估计房间传递函数,然后对混响语音逆滤波实现解混响的目标。实际情况下,往往不能准确估计房间传递函数,并且由于房间传递函数是实时发化的,计算量大,效果不好;

基于概率模型类的算法:通过假定混响语音信号为房间传递函数和语音信号的自回归或者卷积传递函数模型且对语音建立零均值、时变方差的高斯分布,实现对解混响目标语音的建模,利用最大似然等方法求解模型中的所有参数,最后实现解混响得到估计的干净语音。该类算法一般要求通道个数大于1。

有监督条件下语音解混响算法:
基于非负矩阵分解/非负卷积信号模型:

对房间传递函数和语音信号的分析,建立对混响信号时频幅度谱或者能量谱行非负矩阵分解者非负矩阵反卷积的语音解混响和降噪模型;

该类模型通常利用已有语音数据训练得到关亍语音和噪声信号的模型表示。

基亍深度神经网络类算法:

                </div>

本文主要的参考文献来自于语音及语言信息处理国家工程实验室的一篇演讲报告


1、语音增强的目标:

受体是机器,目标是提高语音的可懂度(intelligibility)

受体是人,目标是提高语音的质量(quality)


2、语音增强的任务:

语音降噪、语音分离、语音解混响,增强技术很多情况下并不是独立的,而是需要联合处理和优化。例如,语音解混
响与降噪,卷积盲源分离与降噪等等


3、研究现状和趋势:

语音增强主要包括三个方面:语音降噪、语音分离和语音解混响(可以包含回声消除)问题。根据接收信号的通道个数不同又分为单通道和多通道(特别强调二麦情况,因为与人类双耳对应)等不同情况。基本的算法都是从混合信号和干净信号建立的接收信号模型出发,考虑空间(spatial)、时间(temporal)和谱特性(spectra)三个维度的信息和信号处理问题;当然空间信息需要对应多麦克风情况,单麦克风没有spatial信息可以利用。

1)语音降噪研究现状

无监督语音降噪算法:

   谱减法

将估计的噪声的功率谱并将其从嘈杂语音中减去;

没有利用明确的语音模型,其性能在很大程度上叏决亍对干扰源的频谱跟踪的好坏,容易产生“无中生有”的音乐 噪声;

基于统计模型的方法

语音增强问题归入到一个统计的估计框架中,如Wiener滤波、最小均方误差(MMSE)和最大后验(MAP)法;

一般需要假设语音信号和噪声信号是统计独立的,且服从特定分布;
目前来说,模型参数的鲁棒估计还是一个比较困难的问题;

基于子空间的斱法
假设干净的语音信号子空间和噪声子空间是正交的;
这种子空间正交的假设在实际情况中,特别是短时的情冴下是非常不精确的;

传统的方法对平稳噪声的抑制效果比较显著,但是对于非平稳噪声,其往往不能得到很好的降噪效果

有监督条件下语音降噪算法:

基于模型的方法
因为跟二语音分离信号模型框架基本相似,参考语音分离部分的内容。

深度神经网络类算法

构造足够多的混响数据和对应干净数据进行MMSE或者其他标准下的训练得到模型。

关键点在于:数据规整、归一化/模型泛化/测试不训练的不匹配/Specific adaptation (如说话人、噪声环境、混响时间等等)。

有监督类算法对于非平稳噪声往往能得到更好的降噪效果


2)语音分离研究现状

无监督语音分离算法:

滤波法:

ICA滤波器;(单通道–时频域实现,多通道均可)

多通道波束滤波器;(Beamforming,多通道)

听觉场景分析:(CASA, 单通道,多通道均可)

基音周期的鲁棒估计和追踪问题;高频部分的浊音分离问题;序列聚类问题;清音的分离问题;聚类后的二值时频掩码平滑问题。



有监督条件下语音分离算法:

基于模型的方法:

采用预先训练的模型(参数戒者pattern)来描述每个源信号,而这个模型则作为分离阶段的先验知识。(训练(训练集)–测试(测试集))
参数类:正弦参数模型、AR和variance(LPC)参数、GMM参数描述各语音分布以及mix分布
Pattern类:矢量量化(VQ)、字典学习类算法(DL、SNMF和SCMF以及PLCA类)
测试:一般将混合信号带入到训练得到的参数模型构建的干净语音的可能组合所建立的距离目标凼数中,利用优化算法求解最优参数选择,然后利用得到的参数构建滤波器;
上述模型和HMM结合产生的更好描述信号Temporal性质的算法:
AR-HMM;FSHMM;以及N-FHMM。

深度神经网络类算法:


3)语音解混响研究现状:

无监督语音解混响算法:

基于复倒谱域的滤波算法(单、多通道):

在复倒谱域纯净语音信号的复倒谱通常分布在靠近原点的附近,而房间冲击响应的复倒谱主要分布在远离原点的地斱。一般采用低通滤波器的低时窗滤除相应的混响部分,然后再通过逆向操作,获得解混响的声源信号。

基于波束形成的算法(多通道):

定方向信号,大幅降低其他方向的干扰和混响成分;
要实现比较好的效果的话,对麦克风数目要求比较多;
单通道的语音解混响问题丌能运用此类斱法。

抑制后期混响的谱减法(单、多通道):

该类算法一般区分混响语音为前期混响成分和后期混响成分。利用统计方法和混响时间模型估计后期混响成分的差,然后构建时滤波数实现去除后期混响成分的功能;
一般应用
单通道解混响者和其他解混响算法共同使用;
该类算法一般在能量谱域实现,算法比较稳健,但由
非线性变换破坏相位,能放置在其他需要相位信息的增强算法之前。

线性滤波器法(单、多通道—以多通道研究为主):

逆滤波器法:通过估计房间传递函数,然后对混响语音逆滤波实现解混响的目标。实际情况下,往往不能准确估计房间传递函数,并且由于房间传递函数是实时发化的,计算量大,效果不好;

基于概率模型类的算法:通过假定混响语音信号为房间传递函数和语音信号的自回归或者卷积传递函数模型且对语音建立零均值、时变方差的高斯分布,实现对解混响目标语音的建模,利用最大似然等方法求解模型中的所有参数,最后实现解混响得到估计的干净语音。该类算法一般要求通道个数大于1。

有监督条件下语音解混响算法:
基于非负矩阵分解/非负卷积信号模型:

对房间传递函数和语音信号的分析,建立对混响信号时频幅度谱或者能量谱行非负矩阵分解者非负矩阵反卷积的语音解混响和降噪模型;

该类模型通常利用已有语音数据训练得到关亍语音和噪声信号的模型表示。

基亍深度神经网络类算法:

                </div>

猜你喜欢

转载自blog.csdn.net/fangbingxiao/article/details/80037648