声纹识别的三生三世

0. 什么是声纹识别
通俗的讲,就是给我一句话,判断出这句话是谁讲的。
再细分一下,分为说话人确认(speaker verification)和说话人识别(speaker identification)。
说话人确认:Is this Bob's voice ?
说话人识别: whose voice is this ?


1. 第一代声纹识别
UBM-MAP方案
step1: 获得通用背景模型(universal background model, UBM):通过大量语音数据依据EM算法基于MLE准则训练得到;
这时候,UBM一般采用GMM建模。
step2: 注册阶段
用几句说话人数据对UBM进行MAP自适应,得到说话人的声纹模型(SPK);
step3:测试阶段
计算P(O|SPK1),..., P(O|SPKn), P(O|UBM), 基于此判断语音O属于哪个说话人。

2. 第二代声纹识别
i-vector方案
本质上是将说话人语音用一个向量来表征,基于因子分析理论。

3. 第三代声纹识别
深度神经网络方案,目前存在DNN-vector, RNN-vector, CNN-vector三种。
本质上是将神经网络的最后一个隐层输出作为说话人信息表征。


猜你喜欢

转载自blog.csdn.net/chinabing/article/details/80376307