Self supervised learning for robust voice cloning简单记录

1 论文内容
2 主要思想
3 方法

论文来源：Submitted to INTERSPEECH 2022
论文机构：Innoetics, Samsung Electronics, Greece
论文作者：Konstantinos Klapsas等
论文链接：https://arxiv.org/abs/2204.03421v1

1 论文内容

本文首次提出将自监督特征应用至声纹克隆任务中。
能够在没有标记的数据集上训练任意数量的说话人，并且使用训练集的少部分即可达到基线的性能。

2 主要思想

这篇论文没有什么特别的，就是利用BYOL-A预训练方法，一堆数据增强算法增强模型的鲁棒性。

3 方法

基础架构：Non-attentive Tacotron TTS
vocoder：LPCNet
预训练方法：BYOL-A

3.1 BYOL-A

BYOL-A包括目标网络和在线网络，两个网络同时训练。这两个网络具有同样的结构，但是使用不同的权重。

设在线网络为 $\theta$ ，目标网络为 $\xi$ ，这两个网络都包括一个编码器 $f$ ，一个投影 $g$ ，因此可以得到 $f_{\theta}$ 、 $g_{\theta}$ 和 $f_{\xi}$ 、 $g_{\xi}$ 。除此之外，在线网络有一个额外的预测模块 $q_{\xi}$ 。

训练过程——

生成音频 $x$ 的两个增强， $u = t (x)$ 和 $u^{'} = t^{'} (x)$
在线网络输出表示 $y_{\theta}=f_{\theta}(u)$ , 投影 $z_{\theta}=g_{\theta}(y)$
在推理阶段，只有 $y_{\theta}=f_{\theta}(u)$
目标网络从第二个增强视图输出目标投影 $z'_{\xi}=g_{\xi}(f_{\xi}(u'))$
在线网络的预测模块从 $z'_{\xi}$ 中得到预测 $q_{\theta}(z_{\theta})$
将目标投影用 $l_2$ 标准化得到： $\bar q_{\theta}(z_{\theta})$ 、 $\bar z'_{\xi}$
损失为：
$L_{\theta,\xi}=\left\|\bar q_{\theta}(z_{\theta})-\bar z'_{\xi}\right\|_2$
使损失增强对称， $u^{'}$ 增强提供给了在线网络， $u$ 提供给了目标网络，重新计算损失得到 $L'_{\theta,\xi}$
最后的损失为: $L^{BYOL}_{\theta,\xi}=L'_{\theta,\xi}+L_{\theta,\xi}$

只有在线网络更新来最小化损失，将目标网络的参数更新为在线网络的指数移动平均：
$\xi<—\tau\xi+(1-\tau)\theta$
在本文的实验中， $\tau=0.99$ ，是目标衰减率。
对于音频数据，输入至网络的是一秒的对数梅尔。

3.2 BYOL-A增强

3.2.1 正则化前后

对样本进行增强前和增强后的归一化处理。预归一化是使用整个数据集的统计信息完成的，而后归一化是使用当前批处理的统计信息完成的。

3.2.2 mixup

mixup的主要作用就是区分前景和背景。
随机选择的当前输入和过去输入以小比例混合。过去的输入作为背景音，它帮助网络只学习前景声学事件的表征。
声学特征是对数尺度的，在mixup中，先被转换为线性尺度，再被转换为对数尺度。
$\bar x_{i}=log(1-\lambda)exp(x_{i})+\lambda exp(x_{k})$
$x_{k}$ 是从存储库中随机选择的一个样本， $\lambda$ 为（0，0.4）的随机采样。

3.2.3 RRC（random resize crop）

一般应用于图像中，现应用于音频的梅尔谱图。它可以被认为是音高变换和时间延伸的近似。
先对对数梅尔谱随机抽样，给定一些频率F和时间T，crop的大小随机抽样为：
$F_{C}=[min(U(h_{1},h_{2}),1.0)\times F]$
$T_{C}=[U(w_{1},w_{2})\times T]$
$h_{1},h_{2}$ 和 $w_{1},w_{2}$ 的数值都为0.6和1.5，意味着新的crop区域可能在原始谱图的边界之外，可由0来填充。

3.2.4 高斯噪声

将训练数据和从正态分布采样的噪声进行插值。

3.3 额外的增强

3.3.1 韵律扩增

当对波形应用直接的基音变换和持续时间缩放时，可以获得更好的性能和鲁棒性。为了让韵律变化不影响说话人的身份，用Praat Tolkit实现此增强，直接在波形中进行，在BYOL-A之前进行扩充。

3.3.2 外部噪声

使用了Chime-4 challenge的噪声进行了噪声增强。

声纹克隆：Self supervised learning for robust voice cloning