语音特征:mfcc、fbank和语谱图概述

语谱图一般口语上说的是语音的log谱特征,就是你用audition或者Audacity看到的横轴是时间,纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了:

对语音序列做STFT,其中包括分帧,加窗和对每一帧的DFT变换,一般在语音识别里面会在加窗之后加一步预加重,输出的结果是复数(DFT的原因)。
STFT的结果取模称为线性谱,再加log称为log谱,此处对应语谱图的概念。
在这里插入图片描述

对线性谱做mel滤波,即乘上一组mel滤波系数(就是一组三角滤波器,放大了低频的成分),结果称为filter bank(fbank)特征,一般这一步单独拿来用的话也会加上log,称为log fbank特征。
MFCC特征就是对log fbank特征做DCT变换进行去相关之后的结果,实际操作也就是成一个DCT变换矩阵。
所以中间就是存在一个mel滤波的概念,从log谱是可以转到MFCC特征的(求一个exp,再做两个线性变换就行),此外,DCT变换是可逆的,所以MFCC和fbank特征也可以进行相互转换,但是从谱特征到fbank的过程不行的(滤波组矩阵不可逆),这一点清楚就行。

猜你喜欢

转载自blog.csdn.net/weixin_44885180/article/details/115718723