1. 信号预处理部分

预处理部分中包括

预加重
分帧
加窗；

1.1 读取音频数据

python可以用librosa库来读取音频文件，但是对于MP3文件，它会自动调用audio_read函数，所以如果是MP3文件，务必保证将ffmpeg.exe的路径添加到系统环境变量中，不然audio_read函数会出错。

这里我们首先读取音频文件，并作出0-20秒的波形。

现在的音乐文件采样率通常是44.1kHz。

用y和sr分别表示信号和采样率。

代码和图形如下：

import librosa
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams
import matplotlib.ticker as ticker
 
#这是一个画图函数，方便后续作图
def personal_plot(x,y):
    plt.figure(dpi=200,figsize=(12,6))
    rcParams['font.family']='Comic Sans MS'
    plt.plot(x,y)
    plt.xlim(x[0],x[-1])
    plt.xlabel('time/s',fontsize=20)
    plt.ylabel('Amplitude',fontsize=20)
    plt.xticks(fontsize=16)
    plt.yticks(fontsize=16)
    plt.grid()
 
#注意如果文件名不加路径，则文件必须存在于python的工作目录中
y,sr = librosa.load('笑颜.mp3',sr=None)
 
#这里只获取0-20秒的部分，这里也可以在上一步的load函数中令duration=20来实现
tmax,tmin = 20,0
t = np.linspace(tmin,tmax,(tmax-tmin)*sr)
personal_plot(t,y[tmin*sr:tmax*sr])

在这里插入图片描述

1.2 预加重

通常来讲语音/音频信号的高频分量强度较小，低频分量强度较大，信号预加重就是让信号通过一个高通滤波器，让信号的高低频分量的强度不至于相差太多。在时域中，对信号x[n]作如下操作：
在这里插入图片描述

α通常取一个很接近1的值，typical value为0.97或0.95.
从时域公式来看，可能有部分人不懂为啥这是一个高通滤波器，我们从z变换的角度看一下滤波器的transfer function：
在这里插入图片描述
可以看出滤波器有一个极点0，和一个零点α。
当频率为0时，z=1, 放大系数为(1-α）。当频率渐渐增大，放大系数不断变大，当频率到pi时，放大系数为(1+α)。

离散域中， $[0,\pi]$ 对应连续域中的 $[0, f s /2]$ (单位Hz)。

其中fs为采样率，在我们这里是44.1kHz。
因此当频率到22000Hz时，放大系数为 $(1 + α)$ 。

扫描二维码关注公众号，回复： 15012997 查看本文章

下面用两段代码和对应的图像给出一个直观感受:

alpha = 0.97
emphasized_y = np.append(y[tmin*sr],y[tmin*sr+1:tmax*sr]-alpha*y[tmin*sr:tmax*sr-1])
n = int((tmax-tmin)*sr) #信号一共的sample数量
 
#未经过预加重的信号频谱
plt.figure(dpi=300,figsize=(7,4))
freq = sr/n*np.linspace(0,n/2,int(n/2)+1)
plt.plot(freq,np.absolute(np.fft.rfft(y[tmin*sr:tmax*sr],n)**2)/n)
plt.xlim(0,5000)
plt.xlabel('Frequency/Hz',fontsize=14)

在这里插入图片描述

#预加重之后的信号频谱
plt.figure(dpi=300,figsize=(7,4))
plt.plot(freq,np.absolute(np.fft.rfft(emphasized_y,n)**2)/n)
plt.xlim(0,5000)
plt.xlabel('Frequency/Hz',fontsize=14)

在这里插入图片描述
这两段代码里用了函数librosa.fft.rfft(y,n)，
rfft表示经过fft变换之后只取其中一半（因为另一半对应负频率，没有用处）, y对应信号，n对应要做多少点的FFT。

我们这里的信号有44.1k*20=882000 个点，所以对应的FFT 也做882000点的FFT，每一个点所对应的实际频率是该点的索引值*fs/n，这是咋得出来的？

因为第882000个点应该对应(约等于)fs(或者离散域中的 $2\pi$ )，所以前面的点根据线性关系一一对应即可。

这里只展示0-5000Hz，可以看出，经过预加重之后的信号高频分量明显和低频分量的差距没那么大了。

这样预加重的好处有什么?
原文提到了三点:
(1)就是我们刚刚提到的平衡一下高频和低频
(2)避免FFT中的数值问题(也就是高频值太小出现在分母的时候可能会出问题)
(3)或许可以提高SNR。

1.3 分帧

预处理完信号之后，要把原信号按时间分成若干个小块，一块就叫一帧(frame)。

为啥要做这一步？因为原信号覆盖的时间太长，用它整个来做FFT，我们只能得到信号频率和强度的关系，而失去了时间信息。

我们想要得到频率随时间变化的关系，所以完成以下步骤

将原信号分成若干帧，
对每一帧作FFT（又称为短时FFT，因为我们只取了一小段时间)，然后对每一帧频谱进行映射。
最后将得到的结果按照时间顺序拼接起来。

这就是语谱图(spectrogram)的原理。

在进行语谱图之前，先对信号定义下面几个变量:

frame_size: 每一帧的长度。通常取20-40ms。太长会使时间上的分辨率(time resolution)较小，太小会加重运算成本。 这里取25ms.
frame_length: 每一帧对应的sample数量。
等于fs*frame_size。我们这里是44.1k*0.025=1102.
frame_stride: 相邻两帧的间隔。通常间隔必须小于每一帧的长度，即两帧之间要有重叠，否则我们可能会失去两帧边界附近的信息。
做特征提取的时候，我们是绝不希望丢失有用信息的。这里取10ms，即有60%的重叠。
frame_step: 相邻两帧的sample数量。这里是441.
frame_num: 整个信号所需要的帧数。
一般希望所需要的帧数是个整数值，所以这里要对信号补0 (zero padding)让信号的长度正好能分成整数帧。

具体代码如下:

frame_size, frame_stride = 0.025,0.01
frame_length, frame_step = int(round(sr*frame_size)),int(round(sr*frame_stride))
signal_length = (tmax-tmin)*sr
frame_num = int(np.ceil((signal_length-frame_length)/frame_step))+1 #向上舍入
pad_frame = (frame_num-1)*frame_step+frame_length-signal_length #不足的部分补零
pad_y = np.append(emphasized_y,np.zeros(pad_frame))
signal_len = signal_length+pad_frame

1.4 加窗

分帧完毕之后，对每一帧加一个窗函数，以获得较好的旁瓣下降幅度。通常使用hamming window。

为啥要加窗？

要注意，即使我们什么都不加，在分帧的这个过程中也相当于给信号加了矩形窗，离散滤波器设计的内容中指出：

矩形窗的频谱有很大的旁瓣，

时域中将窗函数和原函数相乘，相当于频域的卷积，矩形窗函数和原函数卷积之后，由于旁瓣很大，会造成原信号和加窗之后的对应部分的频谱相差很大，这就是频谱泄露 。

hamming window有较小的旁瓣，造成的spectral leakage也就较小。

代码实现如下：

首先定义indices变量，这个变量生成每帧所对应的sample的索引。
np.tile函数可以使得array从行或者列扩展。
然后定义frames，对应信号在每一帧的值。frames共有1999行，1102列，分别对应一共有1999帧和每一帧有1102个sample。

将得到的frames和hamming window直接相乘即可，注意这里不是矩阵乘法。

indices = np.tile(np.arange(0, frame_length), (frame_num, 1)) + np.tile(
    np.arange(0, frame_num * frame_step, frame_step), (frame_length, 1)).T
frames = pad_y[indices] #frame的每一行代表每一帧的sample值
frames *= np.hamming(frame_length) #加hamming window 注意这里不是矩阵乘法

2. 语谱图（此处等价为功率谱）

2.1 做FFT，求频谱 ( frequency spectrum)

多帧信号做FFT，在上一节中获得了frames变量，其每一行对应每一帧，所以我们分别对每一行做FFT。（ 这里需要注意，不同的分帧算法实现，定义不一样，有的是将每一列作为一帧，自己看代码时，需要进行区分）

由于每一行是1102个点的信号，所以可以选择1024点FFT（FFT点数比原信号点数少会降低频率分辨率frequency resolution，但这里相差很小，所以可以忽略）。

2.2 取频谱模平方，求功率谱 (power spectrum )

将得到的FFT变换取其magnitude，并进行平方再除以对应的FFT点数，即可得到功率谱。

功率谱，代表的是信号本身在不同的频率成分上各自所包含的功率（或者能量），通过检查一个信号的功率谱，可以确定信号中存在哪些频率以及它们的相对强度。

其横坐标代表是频率，通常使用Hz 单位，频率轴可以对数的，这样任意两个频率成分之间是对数关系。
纵坐标，代表了每个频率成分所对应的能量，　通常使用dB 单位。
功率谱图中的高度代表了，在某一个频段区间内，　该频段内的能量（或者说功率）。

2.3 语谱图spectrogram

原始信号所对应的，无论频谱还是功率谱，反应的都是信号在各个频率分量上的信息。　但是，这两者都丢失了信号在时间维度上的信息。

从而，为了将一个信号同时表达出，信号在频率分量上的信息，又要显示出信号随着时间变化的信息。　这便是语谱图的本意。

语谱图的横坐标表示时间，　纵坐标是频率，每个点上数值强度或者颜色深度表示该点在时频上的特性。

注意：如何从功率谱得到语谱图呢？
使用短时傅里叶变换。即在

对信号进行分帧之后;

对每一帧信号计算其对应的功率谱。

再将该功率谱垂直翻转90度，　从而便得到当前帧的语谱图形式，此时纵轴便是频率，横轴是当前帧时间上的信息；

重复第2, 3 步骤，便会将多个帧的功率谱在时间维度上，按照时间的先后顺序拼接起来，从而构成了语谱图。

所以，语谱图便是将每一帧信号的功率谱做成一个合集（每一帧信号都有一个功率谱)。将多个帧的功率谱，翻转之后，按照时间顺序拼接，就构成信号的spectrogram)。

此时, 使用每一帧信号的功率谱，构成一个功率谱的合集，该功率谱合集便是等价于语谱图；

NFFT = 1024 #frame_length=1102，所以用1024足够了
mag_frames = np.absolute(np.fft.rfft(frames,NFFT))
pow_frames = mag_frames**2/NFFT　#Pow_frames就是功率谱矩阵的变量名.

 
plt.figure(dpi=300,figsize=(12,6))
plt.imshow(20*np.log10(pow_frames[40:].T),cmap=plt.cm.jet,aspect='auto')
plt.yticks([0,128,256,384,512],np.array([0,128,256,384,512])*sr/NFFT)

在这里插入图片描述

2.4 语谱图和Mel语谱图的比较

mel-spectrogram就是将梅尔滤波器组应用到语谱图中。

此时，语谱图的纵坐标从Hz 刻度便转换成Mel刻度；

Mel尺度和普通频率之间使用如下转换公式；

Mel(f) = 2595 * log10(1 + f/700)

注意，在实际的代码中，会有另外的公式；
即在1000Hz, 内使用线性变换，　超过1000Hz 后再使用如上的变换。

------------------ 以下内容扩展到 Mel 语谱图部分---------------

3. Mel 滤波器组

所谓梅尔滤波器组是一个等高的三角滤波器组，每个滤波器的起始点在上一个滤波器的中点处。其对应的频率在梅尔尺度上是线性的，因此称之为梅尔滤波器组。

每个滤波器对应的频率可以将最大频率（下图中是4000，我们这里是22.05k)用上文中提到的公式转换成梅尔频率，在梅尔尺度上线性分成若干个频段，再转换回实际频率尺度即可。

实际操作时，将每个滤波器分别和功率谱pow_frames进行点乘，获得的结果即为该频带上的能量(energy)。

这里我们的pow_frames是一个(1999,513)的矩阵(这里可能有人疑问513咋来的？我们刚刚做的不是1024点FFT吗？

这里注意因为我们用了rfft，只用了非负的那一半频率，所以是1024/2+1个点）.

3.1 Mel 滤波器的个数与 $N_{fft}$ 点数之间的关系

梅尔滤波器fbank是一个(mel_N, 513)的矩阵，其中mel_N代表对应的梅尔滤波器个数，这个值不能太大，因为这里我们一共只有513个点，如果mel_N取得太大，会导致前面几个滤波器的长度都是0 (因为低频的梅尔滤波器特别窄)。

在这里插入图片描述

梅尔滤波器的数量越多，低频滤波器分到的频率点数越少，相应的就需要 $N_{FFT}$ 提高，否则低频滤波器对应的点数太少甚至为0.

我们只要将这两个矩阵相乘pow_frames*fbank.
T即可得到mel-spectrogram，结果是一个(1999, 40)的矩阵，每一行是一帧，每一列代表对应的梅尔频带的能量。

3.2 Mel 滤波器计算公式

具体梅尔滤波器的图例和计算公式以及对应代码如下:
在这里插入图片描述

其中m代表滤波器的序号，f(m-1)和f(m)、f(m+1)分别对应第m个滤波器的起始点、中间点和结束点。

大家一定要注意的一点是，这里的f(m)对应的值不是频率值，而是对应的sample的索引！

比如，我们这里最大频率是22050 Hz, 所以22050Hz对应的是第513个sample，即频率f所对应的值是f/fs*NFFT。

代码中有一段np.where(condition,a,b)，这个函数的功能是检索b中的元素，当condition满足的时候，输出a;

否则，输出b中的原元素。

这一步的操作是为了将其中的全部0值以一个很小的非负值代替，否则在计算dB的时候，log中出现0会出错。

#下面定义mel filter
mel_N = 40 #滤波器数量,这个数字若要提高，则NFFT也要相应提高
mel_low, mel_high = 0, (2595*np.log10(1+(sr/2)/700))
mel_freq = np.linspace(mel_low,mel_high,mel_N+2)
hz_freq = (700 * (10**(mel_freq / 2595) - 1))
bins = np.floor((NFFT)*hz_freq/sr) #将频率转换成对应的sample位置
fbank = np.zeros((mel_N,int(NFFT/2+1))) #每一行储存一个梅尔滤波器的数据
for m in range(1, mel_N + 1):
    f_m_minus = int(bins[m - 1])   # left
    f_m = int(bins[m])             # center
    f_m_plus = int(bins[m + 1])    # right
 
    for k in range(f_m_minus, f_m):
        fbank[m - 1, k] = (k - bins[m - 1]) / (bins[m] - bins[m - 1])
    for k in range(f_m, f_m_plus):
        fbank[m - 1, k] = (bins[m + 1] - k) / (bins[m + 1] - bins[m])
filter_banks = np.matmul(pow_frames, fbank.T)
filter_banks = np.where(filter_banks == 0, np.finfo(float).eps, filter_banks)  # np.finfo(float)是最小正值
filter_banks = 20 * np.log10(filter_banks)  # dB
#filter_banks -= np.mean(filter_banks,axis=1).reshape(-1,1)
plt.figure(dpi=300,figsize=(12,6))
plt.imshow(filter_banks[40:].T, cmap=plt.cm.jet,aspect='auto')
plt.yticks([0,10,20,30,39],[0,1200,3800,9900,22000])

4. Mel 语谱图

最后一步是将梅尔滤波器作用到上一步得到的pow_frames上，得到的mel-spectrogram如下：

在这里插入图片描述
机器学习的时候，每一个音频段即可用对应的mel-spectogram表示，每一帧对应的某个频段即为一个feature。

因此我们一共获得了1999*40个feature和对应的值。

实际操作中，每个音频要采用同样的长度，这样我们的feature数量才是相同的。

通常还要进行归一化，即每一帧的每个元素要减去该帧的平均值，以保证每一帧的均值均为0.

5. MFCCs 原理

5.1 为什么需要MFCC系数

因为2中得到的梅尔谱系数是互相关的，在一些机器学习算法中可能会出问题，因为有些算法假设数据不存在互相关性。

因此，可以用DCT变换来压缩梅尔谱，得到一组不相关的系数。DCT在图像压缩领域很常见，大家可以自己查阅相关资料其原理。

5.2 MFCC 的前13 个系数

在语音识别中，得到的梅尔倒频系数只保存前2-13个，剩下的不用，因为研究表明其他系数代表了系数中高阶的变化，在ASR中没啥用。

当然，更深层次的原因是MFCC是倒谱系数，所谓倒谱系数，就是对log之后的梅尔谱系数进行DCT变换；

其实相当于将实际上是频域的信号当成时域信号强行进行频域变换，得到的是频域信号在伪频域的幅频相应；

前2-13个系数代表的是包络，因为他们在伪频域上是低频信号，所以在前面，后面的系数是伪频域的高频信号，代表的是spectral details，在语音识别的时候，对我们帮助更大的是包络，因为包含了formants等信息。

5.3 小结

总的来说，过去在HMM、GMM等模型用的比较火的时候，多将MFCC用于特征提取，因为当时的机器学习算法有相应的不足。

如今最热门的是以神经网络为代表的深度学习算法，神经网络内部复杂，在训练的过程中可以在网络内部将互相关的问题弱化，也因此DCT变换显得有些多余，何况还会提高计算量，而且DCT作为一种线性变换，有可能会导致损失信号中一些非线性信息。

因此，如今Mel-spectogram用的更多。

参考资料

Mel-frequency cepstrum
Mel Frequency Cepstral Coefficient (MFCC) tutorial
Notes on Music Information Retrieval
机器学习中距离和相似性度量方法
https://robinchao.github.io/2018/07/24/speech-recognation-mfcc.html
https://blog.csdn.net/weixin_50547200/article/details/117294164

语谱图（二） Spectrogram 的产生

1. 信号预处理部分

1.1 读取音频数据

1.2 预加重

1.3 分帧

1.4 加窗

2. 语谱图（此处等价为功率谱）

2.1 做FFT，求频谱 ( frequency spectrum)

2.2 取频谱模平方，求功率谱 (power spectrum )

2.3 语谱图spectrogram

2.4 语谱图和Mel语谱图的比较

3. Mel 滤波器组

3.1 Mel 滤波器的个数与 $N_{fft}$ 点数之间的关系

3.2 Mel 滤波器计算公式

4. Mel 语谱图

5. MFCCs 原理

5.1 为什么需要MFCC系数

5.2 MFCC 的前13 个系数

5.3 小结

参考资料

猜你喜欢

语谱图（二） Spectrogram 的产生

1. 信号预处理部分

1.1 读取音频数据

1.2 预加重

1.3 分帧

1.4 加窗

2. 语谱图（此处等价为功率谱）

2.1 做FFT，求频谱 ( frequency spectrum)

2.2 取频谱模平方， 求功率谱 (power spectrum )

2.3 语谱图spectrogram

2.4 语谱图和Mel语谱图的比较

3. Mel 滤波器组

3.1 Mel 滤波器的个数与 N f f t N_{fft} Nfft​ 点数之间的关系

3.2 Mel 滤波器计算公式

4. Mel 语谱图

5. MFCCs 原理

5.1 为什么需要MFCC系数

5.2 MFCC 的前13 个系数

5.3 小结

参考资料

猜你喜欢

2.2 取频谱模平方，求功率谱 (power spectrum )

3.1 Mel 滤波器的个数与 $N_{fft}$ 点数之间的关系