语音识别技术概览

1.1概述

1.1.1总结

语音识别基本和图片识别类似,都是从传统的模型到深度神经网络DNN,再到RNN、深度卷积网络CNN。

在端到端方面也是从隐马尔科夫HMM到CTC、LFMMI,再到attention方面…

下面是一些模型列表:
1.混合高斯-隐马尔科夫模型 GMM-HMM
2.深度神经网络-隐马尔科夫模型 DNN-HMM
3.深度循环神经网络-隐马尔科夫模型 RNN-HMM
4.深度卷积神经网络-隐马尔科夫模型 CNN-HMM
5.n-GRAM模型
6.CTC
7.LFMMI(lattice free maximum mutual information)无词图最大互信息
8.连接时序分类-长短时记忆模型 CTC-LSTM
9.注意力模型 Attention

1.2GMM-HMM

混合高斯-隐马尔科夫模型 GMM-HMM。神经网络出现前的模型,20世纪80年初。

1.3GRU-CTC、BLSTM-RNN

利用循环神经网络可以利用语音上下文相关的信息,得到更加准确地信息,而GUR又能选择性的保留需要的长时信息,使用双向rnn又能够充分的利用上下文信号。
但该方法缺点是一句话说完之后才能进行识别,且训练相对cnn较慢

1.4FSMN

科大讯飞结合DNN和RNN特点,研发了前馈型序列记忆神经网络(feed-forward sequential memory network,FSMN)解决了双向GRU的参数过多和实时性较差的缺点,它利用一个记忆模块,包含了上下几帧信息,能够得到不输于双向GRU-CTC的识别结果。

1.5DFCNN

2016年,科大讯飞提出了一种使用深度卷积神经网络来对时频图进行识别的方法,就是全序列卷积神经网络DFCNN(DEEP fully convolutional neural network)。

DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图,DFCNN直接将一句语音转化成一张图像作为输入。

猜你喜欢

转载自blog.csdn.net/zephyr_wang/article/details/105689381
今日推荐