仅供自己学习参考,若有侵权,请联系[email protected]
声纹识别由三部分组成:特征,模型,得分。
特征方面:
MFCC/PLP感知线性预测/FBank等短时频谱特征;
D-vector (谷歌2014年提的)
Deep feature / Bottleneck feature /Tandem feature (三者不是并行关系,可以搜关键词查看相关论文)
模型方面:
GMM-UBM
JFA (Joint Factor Analysis)
GMM-UBM i-vector
Supervised-UBM i-vector
DNN i-vector (2014年微软Yun Lei等人提的)
得分方面:
SVM(早期与GMM-UBM一起使用最为后端分类器)
Cosine Distance (CDS)
LDA
PLDA
当然,随着神经网络的发展和训练数据的庞大,谷歌、微软和百度等公司使用end-to-end的方法集这三个方面于一体,效果也还可以。