语音信号的时域处理(一)

语音信号是一个非稳态、时变的信号。但是由于语音是由声门的激励脉冲通过声道形成,而声道,即人的口腔肌肉运动是缓慢的,所以在“短时间”内可以认为语音信号是稳态、时不变的信号。这个“短时间”一般指10~30ms。正是由于语音信号的“准稳态”特点,构成了语音信号的“短时分析技术”。今天,先介绍“短时分析技术”里的时域处理方法。

在进行语音信号的短时时域处理之前,需要先对采集的语音信号进行分帧处理,帧长一般取10~30ms。同时,考虑到如果相邻两帧不重叠,其算出的基音(声带每开启和闭合一次的时间称音调周期或基音周期,其倒数称为基音频率,简称基音)可能会跳变。因此,为了使其平稳过度,要求相邻两帧之间有一部分重叠。此外,还需对每一帧的数据加一个窗函数。对语音信号进行分帧、加窗之后,就可以在时域处理中提取语音信号的特性。

特性一:短时能量和短时平均幅度
在这里插入图片描述
上式中:yi (n)是一帧的数值,n=1,2,…,L, i=1,2,…,fn,L为帧长,fn为分帧后的总帧数。
短时能量E(i)和短时平均幅度M(i)均能表示语音信号能量的大小。其主要用于:区分浊音段与清音段,因为浊音时短时能量E(i)和短时平均幅度M(i)比清音时大得多;区分声母与韵母的分界和无话段与有话段的分界(如下图所示)。

在这里插入图片描述
特性二:短时平均过零率

短时平均过零率表示语音信号波形穿过横轴(零电平)的次数。对于采集的离散信号,如果相邻的数值改变符号,则称为过零。短时平均过零率就是样本数值改变符号的次数。公式如下:
在这里插入图片描述
在计算短时平均过零率时,需要先对原数据进行消除直流分量的预处理,因为直流分量的存在会影响短时平均过零率的正确估算。

通常,高频率意味着高的短时平均过零率,低频率意味着低的短时平均过零率。在判断一段语音信号里有话段与无话段的起点和终点位置,若背景噪声较小时,用平均能量识别较为有效,若背景噪声较大时,用短时平均过零率识别较为有效(如下图所示,红框内为有话段,其短时平均过零率较低),有时也会采用上述两种方法联合进行识别。此外,短时平均过零率还可以判别清音和浊音。
在这里插入图片描述
好了,今天的内容就讲这么多,下期见!

发布了24 篇原创文章 · 获赞 2 · 访问量 4139

猜你喜欢

转载自blog.csdn.net/Leisure_ksj/article/details/104125171