语音特征：mfcc、fbank和语谱图概述 - 代码天地

语音特征：mfcc、fbank和语谱图概述

其他 2021-11-20 06:49:54 阅读次数: 0

语谱图一般口语上说的是语音的log谱特征，就是你用audition或者Audacity看到的横轴是时间，纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了：

对语音序列做STFT，其中包括分帧，加窗和对每一帧的DFT变换，一般在语音识别里面会在加窗之后加一步预加重，输出的结果是复数（DFT的原因）。
STFT的结果取模称为线性谱，再加log称为log谱，此处对应语谱图的概念。
在这里插入图片描述

对线性谱做mel滤波，即乘上一组mel滤波系数（就是一组三角滤波器，放大了低频的成分），结果称为filter bank（fbank）特征，一般这一步单独拿来用的话也会加上log，称为log fbank特征。
MFCC特征就是对log fbank特征做DCT变换进行去相关之后的结果，实际操作也就是成一个DCT变换矩阵。
所以中间就是存在一个mel滤波的概念，从log谱是可以转到MFCC特征的（求一个exp，再做两个线性变换就行），此外，DCT变换是可逆的，所以MFCC和fbank特征也可以进行相互转换，但是从谱特征到fbank的过程不行的（滤波组矩阵不可逆），这一点清楚就行。

猜你喜欢

转载自blog.csdn.net/weixin_44885180/article/details/115718723

语音特征：mfcc、fbank和语谱图概述

[语音处理] 声谱图（spectrogram）FBank（Mel_spectrogram）MFCC(Mel倒谱)到底用哪个作为NN输入？

语音特征MFCC和PLP

【音频特征】语谱图的matlab提取和python提取

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas

语音信号语谱图

音频特征（3）：绘制语谱图

【常用音频处理】hpcp/mfcc/fbank特征提取总结

频域分析基础和语谱图

语音识别(二)：特征抽取~1.2 mfcc和plp

语音识别 — 特征提取 MFCC 和 PLP

绘制语谱图

语音信号处理基础知识之频谱、相位谱、幅度谱、功率谱及语谱图

语音识别-MFCC特征提取

语音特征提取方法-MFCC

语音特征MFCC提取过程详解

MFCC语音特征值提取算法

matlab绘制语谱图

matlab 语谱图相关

语音波形，截断的频域输出以及语谱图制作

python求语音信号短时能量、短时过零率、语谱图

MFCC特征参数提取流程概述

基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真

基于mfcc和DTW语音信息特征提取算法matlab仿真

使用python绘制音频的时频图、频谱图和MFCC特征图

kaldi语音特征预处理-mfcc特征与标签对齐（一）

Python绘制频谱图、语谱图

波形、频谱和语谱

语谱图基频共振峰

Python绘制语谱图+时域波形

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)