声纹克隆:Self supervised learning for robust voice cloning

论文来源:Submitted to INTERSPEECH 2022
论文机构:Innoetics, Samsung Electronics, Greece
论文作者:Konstantinos Klapsas等
论文链接:https://arxiv.org/abs/2204.03421v1

1 论文内容

本文首次提出将自监督特征应用至声纹克隆任务中。
能够在没有标记的数据集上训练任意数量的说话人,并且使用训练集的少部分即可达到基线的性能。

2 主要思想

这篇论文没有什么特别的,就是利用BYOL-A预训练方法,一堆数据增强算法增强模型的鲁棒性。

3 方法

基础架构:Non-attentive Tacotron TTS
vocoder:LPCNet
预训练方法:BYOL-A

3.1 BYOL-A

BYOL-A包括目标网络和在线网络,两个网络同时训练。这两个网络具有同样的结构,但是使用不同的权重。

在线网络 θ \theta θ目标网络 ξ \xi ξ,这两个网络都包括一个编码器 f f f,一个投影 g g g,因此可以得到 f θ f_{\theta} fθ g θ g_{\theta} gθ f ξ f_{\xi} fξ g ξ g_{\xi} gξ。除此之外,在线网络有一个额外的预测模块 q ξ q_{\xi} qξ

训练过程——

  1. 生成音频 x x x的两个增强, u = t ( x ) u=t(x) u=t(x) u ′ = t ′ ( x ) u'=t'(x) u=t(x)
  2. 在线网络输出表示 y θ = f θ ( u ) y_{\theta}=f_{\theta}(u) yθ=fθ(u), 投影 z θ = g θ ( y ) z_{\theta}=g_{\theta}(y) zθ=gθ(y)
    在推理阶段,只有 y θ = f θ ( u ) y_{\theta}=f_{\theta}(u) yθ=fθ(u)
  3. 目标网络从第二个增强视图输出目标投影 z ξ ′ = g ξ ( f ξ ( u ′ ) ) z'_{\xi}=g_{\xi}(f_{\xi}(u')) zξ=gξ(fξ(u))
  4. 在线网络的预测模块从 z ξ ′ z'_{\xi} zξ 中得到预测 q θ ( z θ ) q_{\theta}(z_{\theta}) qθ(zθ)
  5. 将目标投影用 l 2 l_2 l2标准化得到: q ˉ θ ( z θ ) \bar q_{\theta}(z_{\theta}) qˉθ(zθ) z ˉ ξ ′ \bar z'_{\xi} zˉξ
  6. 损失为:
    L θ , ξ = ∥ q ˉ θ ( z θ ) − z ˉ ξ ′ ∥ 2 L_{\theta,\xi}=\left\|\bar q_{\theta}(z_{\theta})-\bar z'_{\xi}\right\|_2 Lθ,ξ=qˉθ(zθ)zˉξ2
  7. 使损失增强对称, u ′ u' u增强提供给了在线网络, u u u提供给了目标网络,重新计算损失得到 L θ , ξ ′ L'_{\theta,\xi} Lθ,ξ
  8. 最后的损失为: L θ , ξ B Y O L = L θ , ξ ′ + L θ , ξ L^{BYOL}_{\theta,\xi}=L'_{\theta,\xi}+L_{\theta,\xi} Lθ,ξBYOL=Lθ,ξ+Lθ,ξ

只有在线网络更新来最小化损失,将目标网络的参数更新为在线网络的指数移动平均:
ξ < — τ ξ + ( 1 − τ ) θ \xi<—\tau\xi+(1-\tau)\theta ξ<τξ+(1τ)θ
在本文的实验中, τ = 0.99 \tau=0.99 τ=0.99,是目标衰减率。
对于音频数据,输入至网络的是一秒的对数梅尔。

3.2 BYOL-A增强

3.2.1 正则化前后

对样本进行增强前和增强后的归一化处理。预归一化是使用整个数据集的统计信息完成的,而后归一化是使用当前批处理的统计信息完成的。

3.2.2 mixup

mixup的主要作用就是区分前景和背景。
随机选择的当前输入和过去输入以小比例混合。过去的输入作为背景音,它帮助网络只学习前景声学事件的表征。
声学特征是对数尺度的,在mixup中,先被转换为线性尺度,再被转换为对数尺度。
x ˉ i = l o g ( 1 − λ ) e x p ( x i ) + λ e x p ( x k ) \bar x_{i}=log(1-\lambda)exp(x_{i})+\lambda exp(x_{k}) xˉi=log(1λ)exp(xi)+λexp(xk)
x k x_{k} xk是从存储库中随机选择的一个样本, λ \lambda λ为(0,0.4)的随机采样。

3.2.3 RRC(random resize crop)

一般应用于图像中,现应用于音频的梅尔谱图。它可以被认为是音高变换和时间延伸的近似。
先对对数梅尔谱随机抽样,给定一些频率F和时间T,crop的大小随机抽样为:
F C = [ m i n ( U ( h 1 , h 2 ) , 1.0 ) × F ] F_{C}=[min(U(h_{1},h_{2}),1.0)\times F] FC=[min(U(h1,h2),1.0)×F]
T C = [ U ( w 1 , w 2 ) × T ] T_{C}=[U(w_{1},w_{2})\times T] TC=[U(w1,w2)×T]
h 1 , h 2 h_{1},h_{2} h1,h2 w 1 , w 2 w_{1},w_{2} w1,w2的数值都为0.6和1.5,意味着新的crop区域可能在原始谱图的边界之外,可由0来填充。

3.2.4 高斯噪声

将训练数据和从正态分布采样的噪声进行插值。

3.3 额外的增强

3.3.1 韵律扩增

当对波形应用直接的基音变换和持续时间缩放时,可以获得更好的性能和鲁棒性。为了让韵律变化不影响说话人的身份,用Praat Tolkit实现此增强,直接在波形中进行,在BYOL-A之前进行扩充。

3.3.2 外部噪声

使用了Chime-4 challenge的噪声进行了噪声增强。

猜你喜欢

转载自blog.csdn.net/qq_32766309/article/details/124590459