基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

其他 2021-03-20 19:33:01 阅读次数: 0

0. 说明

用 M2VoC 的数据训练
可以加上 databaker, thucoss
并且可以在 RTVC-7 Voice Cloning Model 的 Tacotron Pretrained Model 上忽略 embedding layer, 进行 Tune

1. Git Clone

git clone https://github.com/ruclion/Pretrained-EarSpeech.git Tuned-EarSpeech -b 81428b30a486314577bfbd59b272d7e4bd369ef4
mv Pretrained-EarSpeech Tuned-EarSpeech
cd Tuned-EarSpeech
git init
git add .
git commit -m 'init'
git remote add origin https://github.com/ruclion/Tuned-EarSpeech.git
git push -u origin master

2. 训练数据

2.1. AISHELL-3_denoise_dereverb_

实验室降噪过的数据, 感谢大家. (不过没关注怎么降得~)

/ceph/dataset/AISHELL-3_denoise_dereverb_

2.2. M2VoC

M2VoC 比赛的数据, 目标也是合出来他们的声音, 和大家对比~

/ceph/dataset/M2VoC

3. speaker embedding

和逸轩保持一致, 使用张阳的 speaker embedding 结果, 便于调试

/ceph/home/hujk17/npy-EarSpeech-HCSI-Data

目录结构:

npy-EarSpeech-HCSI-Data -> dereverb_npy -> SSB0005 -> spk-SSB00050001.npy

-> spk-SSB00050002.npy

-> SSB0009 -> ...

-> tst_npy -> MST-Originbeat-S1-female-5000 -> spk-000001.npy

-> TST-Track1-S4-male-Game-100 -> spk-000001.npy

4. 预处理数据 -> mel

见 preprocess_dataset

5. 改代码

改好了, 基本上没动

以 FaPig 为模型名字, 逻辑从 FaPig_train.py 开始

6. Base 版逻辑

https://github.com/ruclion/Tuned-EarSpeech

依据是改动代码最少

需要枚举的逻辑有很多, 其中本质上思路有不同的:

Base 版的 Speaker Embedding 使用张阳给逸轩的, 加了一个 FC 到 256; 再尝试下 GE2E 的

仅仅是可以加快收敛的:

Base 版未进行 Guided Attention
Base 版模型随机初始化, 不使用 warm-up
代码中只有 60000 的 train data, 没有 validation 的代码
Batch 只使用的代码自带的 12, 实际上 16 或者 20 应该没问题

7. GE2E 版逻辑

https://github.com/ruclion/Tuned-GE2E-EarSpeech

依据是在 Base 版的基础上, 只改动 Speaker Embedding 为 GE2E 的结果, 其他思路先不加

逻辑从 /ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_extract_GE2E.py 开始, 提取完了所有的 GE2E Embedding

256 的 Embedding 仍然后面接了一个 FC, 和 Base 一致, 并且 FC 也不会太影响
换代码的时候, 仅仅是指定 speaker 路径不同
剩下代码和 Base 完全一致

8. Base 版实验结果

8.1. 默认 batch_size

batch_size = 12, 4000 多内存
7 个小时左右, 到达 20000 步, 能够初步形成 alignment 图, 看来代码正确
teacherForce 的音频还可以

8.2. 大 batch_size

根据峰哥的建议, 可以尝试跑满 GPU, 代码只有 Batch 那部分不同: https://github.com/ruclion/Tuned-BigBatch-EarSpeech

8000 步之后出了 cuda 的问题, epoch 都过去了, 很奇怪

接着恢复训练

9. GE2E 版实验结果

batch size = 12

9.1. 训练 Loss

batch_size = 12, 4000 多内存
2个小时左右, 到达 7000 步, 能够初步形成 alignment 图, 看来 GE2E Speaker Embedding 更集中一些/准确
teacherForce 的音频还可以

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/114433738

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-SayEN-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 不跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-SayEN-EarSpeech 不跨和跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 不跨语言实验观察

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第三步 Module-EarSpeech 解耦思路

基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 应用于 M2VoC 比赛

AutoVC 和 RTVC 在 Cross-lingual TTS 中的对比

CentOS 7 安装 PHP7.2 (LNMP环境搭建第二步)

vue cli 4.1.1完整项目搭建（第二步，搭建页面、路由）

webpack+react+babel环境搭建第二步——静态资源

关于直播网站的搭建--第二步：关于非法请求的拦截

Linux Hadoop集群搭建第二步：--------SSH免密登陆

个人博客搭建第二步：站点主题优化

搭建自己的私人网站第二步之服务器和域名的购买

搭建属于自己的服务器第二步

搭建自己的OCR服务，第二步：PaddleOCR环境安装

TTS学习笔记（一）：Real-Time-Voice-Cloning环境配置

[文献阅读]—Cross-lingual Language Model Pretraining

OAuth 2.0三步走（第二步）——OAuth 2.0 的四种方式

hadoop开发第二步

架构的第二步——技术

第二步如何交易

Spark入门三部曲之第二步Spark开发环境搭建

三步学会用spring开发OSGI——（第二步：工程篇）

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)