GPLDA的LN和各种GPLDA很皮的玩法(有疑问请提出)

gplda也就是我们常说的plda,即假设设本征音和本征信道满足高斯分布而得名.

ht-plda:重尾分布的PLDA, 重尾分布是指少量个体作出大量贡献,占大量的资源,假设的是student t 分布

在一些论文中可以看到,ivector在HT-PLDA上的表现比GPLDA好,并且HT-PLDA的假设是说话人因子和抖动空间是符合student t 分

布,这样就说明ivector中有很多非高斯的行为.

但是科学家大牛们就很皮,他们觉得由于GPLDA的效率和简单性,HT-PLDA好是好但是骚操作很多,实现起来不是那么的高效好用,他

们希望继续保持PLDA的高斯简便性设并且对ivector进行一些转换去减少一些非高斯行为从而减少ivector中非高斯行为对最后性能的影响.毕竟,万物皆高斯(⊙ο⊙)

大牛们的解决办法是:一可以用简单的LN+Whitening处理,第二个是非线性转换

论文:Analysis of I-vector Length Normalization in Speaker Recognition Systems

参考上面论文,他们的想法和结果展示

Daniel Garcia-Romero教授(来自Kaldi爸妈的学校JHU,x-vector创始人之一)相比Partrick Kenny的论文真的是通俗易懂,公式只挑有用的留着,文字不废话,妥妥干货.

其实后续蛮多对PLDA无论是训练还是打分的研究都是基于这篇论文,以及HT-PLDA和G-PLDA之间性能差别的分析想法.而我最近

就是在实现很多其他的PLDA的做法,我们称之为后处理.等后续有发现后再来发文.

HT-PLDA 论文参考:Bayesian Speaker Verification with Heavy-Tailed Priors

Patrick Kenny这老哥写的论文无论是什么,都是妥妥的公式,我数学渣滓,呕血都啃不来,有大神理解后,请告诉我一声.

如我写的东西有问题,请及时告诉我改正,谢谢!

手上的项目完成后应该会开始深度学习的内容,虽然我觉得传统算法的东西高深莫测,但是现在公司都在深度学习,不前进不行,

但我个人认为,深度学习与传统算法的差别在于特征的差别,所以性能在各大领域会提高很多.毕竟传统算法的特征都是基于很多假

设,假设即真实的世界不一定如大牛们所想,所以一定会存在一定的偏差.

日后更新以前的博文,并且把ivector的真正设计到的公式po上来,并且再聊聊我对说话人识别深度学习的感悟.但这个时间又得很久咯~

猜你喜欢

转载自blog.csdn.net/robingao1994/article/details/81908036