语音识别算法的现状

目前

目前的语音识别算法:

  1. 卷积神经网络

  2. 深度学习神经网络

  3. BP神经网络

  4. RBF神经网络

  5. 模糊聚类神经网络

  6. 改进的T-S模糊神经网络

  7. 循环神经网络

  8. 小波神经网络

  9. 混沌神经网络

  10. 小波混沌神经网络

  11. 神经网络和遗传算法

  12. 动态优化神经网络

  13. K均值和神经网络集成

  14. HMM与自组织神经网络的结合

  15. 正交基函数对向传播过程神经网络

  16. HMM和新型前馈型神经网络

  17. 特征空间随机映射

  18. SVM多类分类算法

  19. 特征参数归一化

  20. 多频带谱减法

  21. 独立感知理论

  22. 分段模糊聚类算法VQ-HMM

  23. 优化的竞争算法

  24. 双高斯GMM特征参数

  25. MFCC和GMM

  26. MFCCs和PNN

  27. SBC和SMM

  28. MEL倒谱系数和矢量量化

  29. DTW

  30. LPCC和MFCC

  31. 隐马尔科夫模型HMM

       由于BP算法在神经网络的层数增多时容易陷入局部最优的困境,也很容易产生过拟合的问题。20世纪90年代,各种各样的浅层机器学习模型相继被提出,如支撑向量机(Support Vector Machines, SVM)、Boosting、最大熵方法(如 Logistic Regression, LR)等。这些模型具有高效的学习算法,且不存在局部最优的问题,在理论分析与实际应用中都获得了巨大的成功。相比之下,MLP的训练需要很多经验和技巧,多层前馈神经网络的研究逐渐变得冷清。

       随着2006年深度神经网络(DNN)和深度学习(deep丨earning)概念的提出,神经网络又成为机器(统计)学习领域的研究热点。这些名词由多伦多大学的Geoff Hinton研究组于2006年创造。

Hinton研究组提出:

  • 1)多隐藏层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
  • 2)深度神经网络在训练上的难度,可以通过“逐层预训练”(layer-wise pre-training)来有效克服。关于预训练有助于深度学习的原因,最直接的解释是预训练将网络参数训练到一组合适的初始值,从这组初始值出发会得到一个较优的局部最优解。
  • 卷积神经网络(Convo丨utional Neural Network, CNN)由纽约大学的 Yann 1^60111[6]于1998年提出(如图1.2所示),在手写体认别、交通标志识别等图像分类任务中得到了广泛应用。CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。

                                                                        

        上图中,圆圈代表神经网络的一个输入值,“+1”标识的圆圈称为偏置神经元,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(本例中,输出层只有一个神经元)。中间所有神经元组成的一层叫做隐藏层,隐藏层神经元功能是以某种方式介入输入与输出之间。可以看到,图1.1神经网络有3个输入单元(偏置单元不计算在内),1个隐藏层及1个输出单元。CNNs 由一组或多组卷积层 convolutional layer + 采样层 pooling layer 构成。一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行观察。采样层通过对卷积层的输出结点做固定窗长的采样,减少下一层的输入结点数,从而控制模型的复杂度。一般采样层采用最大采样算法( max poo-ling) ,即对固定窗长内的结点选取最大值进行输出。最后,通过全网络层将采样层输出值综合起来,得到最终的分类判决结果。

 

 

 

 

 

 

猜你喜欢

转载自blog.csdn.net/weixin_42039090/article/details/82897439