基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-SayEN-EarSpeech 搭建

0. 说明

1. Git Clone

2. 训练数据

2.1. VCTK

之前训练 AutoVC 用过

  • 处理数据的逻辑从: /ceph/home/hujk17/Tuned-GE2E-SayEN-EarSpeech/FaPig_extract_GE2E_VCTK_nosli.py 开始
  • 保留了 train, val, unseen. 训练的时候只使用 train

3. speaker embedding

在 2.1. 中也一并提取了, 使用 GE2E

4. 预处理数据 -> mel

在 2.1. 中也一并提取了, 使用 实验室的 mel. 嘿嘿(●ˇ∀ˇ●), 终于方便啦

5. 改代码

  • symbols 不用动, 本身就保留了英文的标点
  • 需要改下 train.txt 的路径
  • 以 Kiss 为模型名字, 逻辑从 Kiss_train.py 开始
  • 直接用 本来的小 Batch 训练, batch_size = 12

6. GE2E 版逻辑

  • 256 的 Embedding 仍然后面接了一个 FC, 和中文的一致
  • 中文的叫 FaPig, 英文叫 Kiss, 逻辑从 Kiss_train.py 开始
  • from synthesizer.FaPig_train import train 和 from synthesizer.Kiss_train import train 其实完全一致, 只是为了统一格式, 拷贝了一份

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/114868864