PAMI:随机循环损失及其在说话人转换中的应用

近日,清华大学和北京邮电大学联合在机器学习顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 上发表论文,报告了在语音信息分解领域的最新研究进展。

内容介绍

人耳可以很容易地区分语音信号中包含的复杂信息,如发音内容、发音人、发音情绪等。自然地,我们也希望机器能获得这种信息分解的能力。

语音分解的目的是学习若干变量 {Zi},使得每个变量 Zi 代表且仅代表一个信息因子 Fi。基于信息瓶颈的语音信息分解工作近年来受到关注。

上图是该方法的示意图,其中 F1 和 F2 是信息因子,这些因子通过一个物理生成过程 g(如人的发音过程)生成信号 X。我们希望通过一个解码器 f 将 X 分解成变量 Z1 和 Z2,其中 Zi 对应 Fi。文章证明,如果引入合理的信息偏置 (information Bias) 并且设计合理的信息瓶颈 H(Zi) = H(Fi),那么一个自编码器 (AE) 结构可得到完美的信息分解。

上述理论表明了完美信息分解的可能性,但它的前提是合理的信息偏置和信息瓶颈,这在实际应用中很难满足,导致不同 Zi 之间的信息混杂。一般的做法是加入“信息约束”,使得 Zi 之间更加独立。典型的约束条件包括对抗损失和互信息量损失。然而,这些方法都要引入附加网络,且训练极不稳定,在理论上也无法保证提取出的变量之间的独立性。

本文提出的随机循环 (RC) 损失是一种基于还原论的信息因子分解方法。我们知道科学探索经常采用一种还原归因的思路。物质世界五花八门,我们将物质还原成基本化学元素;生物特性千奇百怪,我们将生物性状还原成基因表达,如此种种。将事物还原成更基础的组分和更简单的原因,是科学家们的基本思路。基于这一思想,事物可以被还原成基本元素,这些元素又可以互相组合,形成新的事物,而这些新事物又可以被重新还原。这一原则称为“分析-合成”原则。

基于分析-合成原则,本文提出了一种称为随机循环损失的学习准则,用于提取语音信号中的信息因子。简单地说,我们用一个编码器将两段语音 X1 和 X2 编码成变量 Z1 和 Z2,每个变量中都包含若干因子。交换 Z1 和 Z2 中的因子生成新编码 Z’,将这一新编码还原成语音后再经过编码器,应该可以得到原来的编码 Z’。如果不能还原 Z’,则二者的差异称为随机循环损失。理论证明,当训练完美结束时(即均方误差损失与随机循环损失均为0),编码器将得到完全独立的信息因子。

该方法实现起来极为简单,只需几行 python 代码即可。文章证明,如果上述随机循环损失和信息瓶颈结合起来,可极大提高了信息分解的性能,而且显著超过当前广泛采用的信息约束方法,开辟了一个信息分解的新方向。

模拟实验

文章设计了一个模拟实验来证明随机循环损失优于信息约束。下图是说话人变量与发音内容变量之间的互信息熵。可以看到,随着训练进行,加入随机循环损失 (RC) 可以快速降低互信息熵的值,而基于对抗损失 (AD) 和互信量量损失 (MI) 的信息约束并没有取得明显效果,且训练过程不稳定。

语音转换

将随机循环损失用于语音转换任务,结果如下图,其中对比了标准多因子转换模型 SpeechFlow 和加入对抗损失以及随机循环损失的结果。可以看到,在几乎所有转换任务中 (b-e),随机循环损失都有明显优势。

资源

1. 论文地址:https://ieeexplore.ieee.org/abstract/document/10073591

2. 项目网站(样例、代码):http://rc.cslt.org

猜你喜欢

转载自blog.csdn.net/weixin_48827824/article/details/129951488
今日推荐