语音信号的时域处理（一）

语音信号是一个非稳态、时变的信号。但是由于语音是由声门的激励脉冲通过声道形成，而声道，即人的口腔肌肉运动是缓慢的，所以在“短时间”内可以认为语音信号是稳态、时不变的信号。这个“短时间”一般指10~30ms。正是由于语音信号的“准稳态”特点，构成了语音信号的“短时分析技术”。今天，先介绍“短时分析技术”里的时域处理方法。

在进行语音信号的短时时域处理之前，需要先对采集的语音信号进行分帧处理，帧长一般取10~30ms。同时，考虑到如果相邻两帧不重叠，其算出的基音（声带每开启和闭合一次的时间称音调周期或基音周期，其倒数称为基音频率，简称基音）可能会跳变。因此，为了使其平稳过度，要求相邻两帧之间有一部分重叠。此外，还需对每一帧的数据加一个窗函数。对语音信号进行分帧、加窗之后，就可以在时域处理中提取语音信号的特性。

特性一：短时能量和短时平均幅度
在这里插入图片描述
上式中：yi (n)是一帧的数值，n=1,2,…,L, i=1,2,…,fn,L为帧长，fn为分帧后的总帧数。
短时能量E(i)和短时平均幅度M(i)均能表示语音信号能量的大小。其主要用于：区分浊音段与清音段，因为浊音时短时能量E(i)和短时平均幅度M(i)比清音时大得多；区分声母与韵母的分界和无话段与有话段的分界（如下图所示）。

在这里插入图片描述
特性二：短时平均过零率

短时平均过零率表示语音信号波形穿过横轴（零电平）的次数。对于采集的离散信号，如果相邻的数值改变符号，则称为过零。短时平均过零率就是样本数值改变符号的次数。公式如下：
在这里插入图片描述
在计算短时平均过零率时，需要先对原数据进行消除直流分量的预处理，因为直流分量的存在会影响短时平均过零率的正确估算。

通常，高频率意味着高的短时平均过零率，低频率意味着低的短时平均过零率。在判断一段语音信号里有话段与无话段的起点和终点位置，若背景噪声较小时，用平均能量识别较为有效，若背景噪声较大时，用短时平均过零率识别较为有效（如下图所示，红框内为有话段，其短时平均过零率较低）,有时也会采用上述两种方法联合进行识别。此外，短时平均过零率还可以判别清音和浊音。
在这里插入图片描述
好了，今天的内容就讲这么多，下期见！

闲人Ne

发布了24 篇原创文章 · 获赞 2 · 访问量 4139

私信关注

语音信号的时域处理（一）

猜你喜欢