目前
目前的语音识别算法:
-
卷积神经网络
-
深度学习神经网络
-
BP神经网络
-
RBF神经网络
-
模糊聚类神经网络
-
改进的T-S模糊神经网络
-
循环神经网络
-
小波神经网络
-
混沌神经网络
-
小波混沌神经网络
-
神经网络和遗传算法
-
动态优化神经网络
-
K均值和神经网络集成
-
HMM与自组织神经网络的结合
-
正交基函数对向传播过程神经网络
-
HMM和新型前馈型神经网络
-
特征空间随机映射
-
SVM多类分类算法
-
特征参数归一化
-
多频带谱减法
-
独立感知理论
-
分段模糊聚类算法VQ-HMM
-
优化的竞争算法
-
双高斯GMM特征参数
-
MFCC和GMM
-
MFCCs和PNN
-
SBC和SMM
-
MEL倒谱系数和矢量量化
-
DTW
-
LPCC和MFCC
-
隐马尔科夫模型HMM
由于BP算法在神经网络的层数增多时容易陷入局部最优的困境,也很容易产生过拟合的问题。20世纪90年代,各种各样的浅层机器学习模型相继被提出,如支撑向量机(Support Vector Machines, SVM)、Boosting、最大熵方法(如 Logistic Regression, LR)等。这些模型具有高效的学习算法,且不存在局部最优的问题,在理论分析与实际应用中都获得了巨大的成功。相比之下,MLP的训练需要很多经验和技巧,多层前馈神经网络的研究逐渐变得冷清。
随着2006年深度神经网络(DNN)和深度学习(deep丨earning)概念的提出,神经网络又成为机器(统计)学习领域的研究热点。这些名词由多伦多大学的Geoff Hinton研究组于2006年创造。
Hinton研究组提出:
- 1)多隐藏层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
- 2)深度神经网络在训练上的难度,可以通过“逐层预训练”(layer-wise pre-training)来有效克服。关于预训练有助于深度学习的原因,最直接的解释是预训练将网络参数训练到一组合适的初始值,从这组初始值出发会得到一个较优的局部最优解。
- 卷积神经网络(Convo丨utional Neural Network, CNN)由纽约大学的 Yann 1^60111[6]于1998年提出(如图1.2所示),在手写体认别、交通标志识别等图像分类任务中得到了广泛应用。CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。
上图中,圆圈代表神经网络的一个输入值,“+1”标识的圆圈称为偏置神经元,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(本例中,输出层只有一个神经元)。中间所有神经元组成的一层叫做隐藏层,隐藏层神经元功能是以某种方式介入输入与输出之间。可以看到,图1.1神经网络有3个输入单元(偏置单元不计算在内),1个隐藏层及1个输出单元。CNNs 由一组或多组卷积层 convolutional layer + 采样层 pooling layer 构成。一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行观察。采样层通过对卷积层的输出结点做固定窗长的采样,减少下一层的输入结点数,从而控制模型的复杂度。一般采样层采用最大采样算法( max poo-ling) ,即对固定窗长内的结点选取最大值进行输出。最后,通过全网络层将采样层输出值综合起来,得到最终的分类判决结果。