笔记摘录:2018.08.26---声纹识别算法

仅供自己学习参考,若有侵权,请联系[email protected]

声纹识别由三部分组成:特征,模型,得分。

特征方面:

MFCC/PLP感知线性预测/FBank等短时频谱特征;

D-vector (谷歌2014年提的)

Deep feature / Bottleneck feature /Tandem feature (三者不是并行关系,可以搜关键词查看相关论文)

模型方面:

GMM-UBM

JFA (Joint Factor Analysis)

GMM-UBM i-vector

Supervised-UBM i-vector

DNN i-vector (2014年微软Yun Lei等人提的)

得分方面:

SVM(早期与GMM-UBM一起使用最为后端分类器)

Cosine Distance (CDS)

LDA

PLDA

当然,随着神经网络的发展和训练数据的庞大,谷歌、微软和百度等公司使用end-to-end的方法集这三个方面于一体,效果也还可以。

 

 

猜你喜欢

转载自blog.csdn.net/xh77224/article/details/82109451