语音信号处理1---基本概念

声域:声音太低、频率过高或过低我们都无法听到,人耳能够听到的声音频率和强度的范围称之为声域。

心理声学:人们对声音的主观感受,典型的例子:噪音刺耳、歌声悦耳。主要有响度、音高、音色、掩盖和定位等特征。

音长:振动持续的时间长短决定声音持续长久。

掩盖效应(鸡尾酒效应):在多种音源的情况下,频率接近的强信号会提高弱信号的听阀,两者响度差大到一定层度,弱信号就会给掩盖掉,即人耳就很难听到弱信号存在。

         即使掩蔽信号(强)消失后,但仍然有500ms~2000ms后向隐蔽作用。

         弱信号出现50ms~200ms后,即出现强信号,依然会有前向掩蔽作用,因为人耳还没有来得及对弱信号作出反应。

酒会效应:人可以从本底噪声环境中,听到某些频率的声音,听觉系统具有滤波效果。

纯音:单一频率的声音;

复音:具有谐波的声音;

白噪声:在所有频率点上,具有相同能量密度的随机噪声;在较宽的频率范围内,各等带宽的频带所含的噪声能量相等。

包络:每个周期的波峰之间连线,体现声强的瞬时特性。

声音三要素:振幅(响度)、频率(音高)、相位(音色)

1、响度

  1. 声压:声场中,由于声波的扰动,某一时刻某一点上的实际压力与该点上平均压力的差值;1bar 巴= 100KPa帕

有效声压:一定时间间隔内,将瞬时声压对时间求均方根

      T声音的长度 N采样点数 x采样点

声压级:SPL ==  20Lg(有效声压 / 基准声压) dB

  pe有效声压  pref参考声压,一般为20uPa=2*10-5Pa

声压在原来基础上增加10倍,声压级增加20dB

声压在原来基础上增加2倍,声压级则增加6dB

声强:声波在单位时间内,作用在传播方向垂直单位面积上的能量。

人耳的最大声强值/最小声强值达到1012

声强级: LI= 10lg(I/I0) dB     参考声强I0== 10 -12W/m2

响度:人对声音强度的主观感受。定义1KHz 40dB的纯音为1Sone宋、

响度级:待测声音和1KHz的纯音做比较,调整纯音声压级以达到待测声音的同样响度,此时1KHz纯音的声压级就成为待测音的响度级。单位:方

例如:1KHz纯音的60dB声压级(相对20uPa)的响度,和扬声器响度一样,我们称扬声器响度为60方。

1KHz 纯音,其声强达到10-16W/cm2为0dB声强级;在0dB声强级下,人耳刚好能听到,定义为零方;

  • 听阀~频率曲线(等响度曲线)

  • 人耳听力范围:20Hz ~ 20KHz  -5dB~130dB
  • 从频率角度看:

人耳对3~5KHz最为敏感,幅度很小的信号都能听得到。

小于800Hz的低频区 && 大于5KHz的高频区,灵敏度会下降很多。

  • 从响度级看:

                响度级小,随频率变化明显,高频区、低频区灵敏度变化敏感,低频区更为激烈。

                更要重视低频音量, 200Hz~3KHz以60、70dB为宜;

                 频带较宽的音乐,以80~90dB为最佳;

  • 不同频率,相同响度,其强度也不一定一样,等响度曲线就是把不同频率和不同强度的纯音和1kHz的纯音做等响度的配对

 

Lp声压级、 f频率、 LN响度级、 Lu为1KHz 幅值、 α f响度感知指数     

根据频率查参数表可以得到:α 、Lu、T

2、音高(频率

人主观感觉来评价声音音调的高低,客观上取决于声波的基频,频高则调高。主观单位美mel,客观单位赫兹Hz

 

    • 音高拟合 Tmel = 2595lg(1+f/700
    • 规定40dB声强下,1kHz纯音的音高为1000mel
    • 音高测量以40dB声强,1kHz纯音为基准。
    • 人耳对响度的感觉是从闻阀到痛阀的范围,以1kHz纯音为测量基准。
    • 音高和频率之间不是线性变化的,还受到声强、波形的影响;两个40dB的纯音都增加1个倍频程,则人耳感受音高变化是相同的,即音高变化和两个频率相对变化对数成正比。1个倍频程==一个9度音

 3、音色

基音(基频产生最为清晰的声音)+ 泛音(各次谐波产生微弱振动音);同时跟材料材质、结构有关。

音质:指声音三要素。

语音信号数字化处理

模拟语音信号 —> 带通滤波器 ---> AGC自动增益控制 ---> A/D模数转换  ---> 脉冲信号编码PCM ---> 存储到硬盘

带通滤波目标:

a>抑制输入信号各频域分量中,超出fs/2的所有分量  fs为采用频率     

b>防止50Hz电源干扰

20lgA(ω)=-3dB,解得A(ω)=10^-0.15=0.707945784≈1/√2

采样频率: 定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个信号样本。

采样率:8000HZ

采样精度:16bit   振幅划分成 65536 个等级,2的16次方

声道数:2个

一个采样点的数据大小:采样精度/8*声道数(即16/8*2=4byte)

一个采样点的数据分布: 左低1字节+左高1字节+右低1字节+右高1字节(1字节*4)

一个采样点的数据值:以样本精度进行读取,多个通道相加(即16bit读取L声道值+16bit读取R声道值),读取时注意机器的大小端区别。

1s的数据大小:采样率*一个采样点的数据大小(即8000*4=32000byte)

奈奎斯特频率:(Nyquist frequency)是离散信号系统采样频率的一半。

奈奎斯特-香农采样定理:只有采样频率高于原始信号最高频率的两倍时,才能把数字信号表示的信号还原成为原来信号。

只要离散系统的奈奎斯特频率高于采样信号的最高频率或带宽,就可以避免混叠现象。从理论上说,即使奈奎斯特频率恰好大于信号带宽,也足以通过信号的采样重建原信号。但是,重建信号的过程需要以一个低通滤波器或者带通滤波器将在奈奎斯特频率之上的高频分量全部滤除,同时还要保证原信号中频率在奈奎斯特频率以下的分量不发生畸变,而这是不可能实现的。在实际应用中,为了保证抗混叠滤波器的性能,接近奈奎斯特频率的分量在采样和信号重建的过程中可能会发生畸变。因此信号带宽通常会略小于奈奎斯特频率;

奈奎斯特频率必须严格大于信号包含的最高频率

语音信号表征特性

a)时域

b)频域    语音信号具有短时平稳性,帧长一般取10~30ms 

c) 语谱图:三维,横轴为时间,纵轴为频率,能量用点的灰度表示;

时域分析不能直观看出频率特性;频域分析也看不出信号随时间的变化;

一帧(一般为1024个采样点)信号,可认为频谱不变,是短时谱,只反应静态的频率特性;

吉布斯效应:吉将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。

 振铃现象:信号的反射可能会引起振铃现象

 声波在两种媒介的分界面会产生折射、反射、透射,声波相干性等声波性质,放到后续阐述。

猜你喜欢

转载自www.cnblogs.com/open-it/p/10855760.html