单位:台湾国立
作者:Yist Y. Lin【1】,Jheng-hao Lin【2】,Hung-yi Lee
【2021 icassp 】Fragmentvc
Any-to-any voice conversion by end-to-end extract- ing and fusing fine-grained voice fragments with attention
abstract
使用Wav2Vec 2.0提取phontic信息,目标说话人的信息从log-mel spec中获得;通过训练,将两个不同的特征空间进行对齐,实现any-to-any的变声。
method
通过pre-trained word2vec模型提取phonetic信息,target speaker encoder提取目标说话人的信息,耦合再decoder中用于重建。只有一个重建loss用于模型参数更新指导。
两阶段训练:
- 第一阶段:word2vec和target speaker encoder的输入是同一个人的同一句话,目的是让模型通过extracting和fusing 有声的片段,学到Wav2Vec feature space 和spectral feature space 的对齐关系。如果这一阶段的source和target来自不同的句子,也能生成目标人音色的语音,但是连续性不好。----即使是一样的句子,attention也无法从学到谱特征种学到声学事件的绝对位置信息??
- 第二阶段:target speaker encoder的输入是10句话谱特征的拼接,刚开始,source utt是包含在10句话中的,但是存在的比例会慢慢降低,使得模型慢慢学到更大的不一致性。为了保持attention学到的信息,source encoder/target encoder和extractor 的学习率调低。
【2021 interspeech】S2VC
代码实现
A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations
两个预训练的SSL分别提取phonetic信息和说话人信息,然后用attention对两个特征空间进行对齐,完成两个特征的耦合。
自监督学习:知乎讲解