2021 icassp Fragmentvc & 2021 interspeech S2VC phonetic信息和说话人向量用attention对齐


单位:台湾国立
作者:Yist Y. Lin【1】,Jheng-hao Lin【2】,Hung-yi Lee

【2021 icassp 】Fragmentvc

Any-to-any voice conversion by end-to-end extract- ing and fusing fine-grained voice fragments with attention

abstract

使用Wav2Vec 2.0提取phontic信息,目标说话人的信息从log-mel spec中获得;通过训练,将两个不同的特征空间进行对齐,实现any-to-any的变声。

method

通过pre-trained word2vec模型提取phonetic信息,target speaker encoder提取目标说话人的信息,耦合再decoder中用于重建。只有一个重建loss用于模型参数更新指导。
在这里插入图片描述

两阶段训练:

  • 第一阶段:word2vec和target speaker encoder的输入是同一个人的同一句话,目的是让模型通过extracting和fusing 有声的片段,学到Wav2Vec feature space 和spectral feature space 的对齐关系。如果这一阶段的source和target来自不同的句子,也能生成目标人音色的语音,但是连续性不好。----即使是一样的句子,attention也无法从学到谱特征种学到声学事件的绝对位置信息??
  • 第二阶段:target speaker encoder的输入是10句话谱特征的拼接,刚开始,source utt是包含在10句话中的,但是存在的比例会慢慢降低,使得模型慢慢学到更大的不一致性。为了保持attention学到的信息,source encoder/target encoder和extractor 的学习率调低。

【2021 interspeech】S2VC

代码实现
A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations

在这里插入图片描述

在这里插入图片描述
两个预训练的SSL分别提取phonetic信息和说话人信息,然后用attention对两个特征空间进行对齐,完成两个特征的耦合。

自监督学习:知乎讲解

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/120251683
今日推荐