一、实验目的
用matlab完成对语音的语谱图分析,要求:
1,分析对象为CV结构的字或词,辅音要有塞音、塞擦音和擦音三种;
2,语谱图要有窄带和宽带语谱图两种,分别分析其特有表征。窄带语谱图上的基频和各次谐波;宽带语谱图上的元音共振峰横杠,塞音的冲直条或者擦音的摩擦乱纹。
3,要用灰度图,而不是彩色图。
二、实验原理
(一)短时频域分析
语音信号的频谱的语言学意义:获取某些重要的语音特征如共振峰、带宽等。
在频域上研究语音信号,可以使信号在时域上无法表现出来的某些特征变得十分明显。
语音信号的短时频域分析,常用基本方法有两种:短时离散傅里叶分析(STFT)和滤波器组分析。其中,STFT是最常用的。
当n=n0时,是将窗函数起点移到n0处截取长度为N的信号x(n)所得到序列的标准傅里叶变换。适用于分帧的短时分析。
(二)STFT的典型应用—语谱图
语谱图横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。语谱图就是显示时变频谱幅度特征的图形,表达式就是离散时间STFT的模的平方,可以被理解为二维的能量密度。
由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。
语谱图可以根据带通滤波器的宽窄分为宽带语谱图和窄带语谱图。
宽带语谱图
带语谱图带宽约为300-400Hz,具有良好的时间分辨率2-5ms,但是频率分辨率较差;宽带语谱图可以用较窄的时间间隔来观察时域的波动。
宽带语图典型谱型
宽横杠(Bar):代表元音的共振峰位置,表现为图中与水平时间轴平行的较宽的黑杠,不同元音的共振峰位置不同,根据宽带语谱图上各横杠的位置可以区分不同的元音,不同人发音的第一共振峰位置会不同,但其分布结构是相似的。
冲直条(spike):代表塞音(b,d,g,p,t,k)或塞擦音(z,zh,j,c,ch,q)的除阻段,表现为图中与垂直频率轴平行的较宽的黑条,在时间上持续时间很短,在频率轴上集中区位置随不同的辅音而不同。
摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者送气音的摩擦段或者送气部分,表现为图中无规则的乱纹。
窄带语谱图
窄带语谱图带宽约为45-100Hz,具有良好的频率分辨率,但是时间分辨率(>10ms)较差。不同的语谱图上所表现的语音特征也不同;窄带语谱图可以用较窄的频率间隔观察频域上的正弦波成分
窄带语图典型谱型
窄横条:代表元音的基音频率及各次谐波,表现为与水平轴平行的线条,窄横条在频率轴的位置对应了音高频率值,随时间轴的曲折、升降变化代表了音高变化的模式。
无声间隙段:对应于语音的停顿间隙,在图中表现为空白区,在两种语谱图中都存在。
三、实验准备
1、实验语音信号,采样率为16000Hz,16位,单声道。
表3.1CV结构发音词表 |
|||
塞音 |
b |
p |
|
发音词表 |
八(ba) |
破(po) |
|
擦音 |
s |
f |
|
发音词表 |
色(se) |
服(fu) |
|
塞擦音 |
z |
zh |
|
发音词表 |
足(zu) |
折(zhe) |
2、测量分析
由于用16000Hz采样频率进行采样,根据宽带语图和窄带语图概念,做宽带语图时窗长N取50,dt=50/16000=3.125ms,df=16000/50=320Hz;做窄带语图时,窗长N取256,dt=256/16000=16ms,df=16000/256=62.5Hz。
四、实验程序和结果图
clear;
clc;
close all;
[x,fs] = audioread('ba.wav');%读出信号
wlen = 50; % 帧长
inc = 25; % 帧移
win = hanning(wlen); % 窗类型
nfft = wlen; % nfft的点数
N = length(x);
time = (0: N -1)/fs;
subplot(2,1,1); %做原始语音信号
plot(time,x, 'k')
xlim([0 max(time)]);
xlabel('时间/s');
ylabel('幅值');
title('语音信号波形');
subplot(2,1,2); %做原始语音信号
colormap(flipud(gray));
spectrogram(x,win,inc,nfft,fs,'yaxis');%绘制语谱图 'yaxis'代表频率轴在Y轴
xlabel('Time(s)');
ylabel('Frequency(Hz)')
title('语谱图')
图4.1“ba”的窄带图和宽带图
图4.2“po”的窄带图和宽带图
图4.3“se”的窄带图和宽带图
图4.4“fu”的窄带图和宽带图
图4.5“zu”的窄带图和宽带图
图4.6“zhe”的窄带图和宽带图
五、实验分析
1. 塞音
从图4.1的宽带语图看,ba有明显的冲直条,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。
从图4.2的宽带语图看,po有明显的冲直条和乱纹,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。
2. 擦音
(1)从图4.3的宽带语图看,se有明显的乱纹,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。
(2)从图4.4的宽带语图看,fu有明显的乱纹,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。
3. 塞擦音
(1)从图4.5的宽带语图看,zu有明显的冲直条和乱纹,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。
(2)从图4.6的宽带语图看,zhe有明显的冲直条和乱纹,以及较宽的共振峰横杠;从窄带语图来看,能清晰得看到基频和各次谐波。