Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train - 代码天地

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

其他 2021-12-14 18:16:17 阅读次数: 0

作者：Kun Zhou, Haizhou Li
会议：2021 interspeech
单位：新加坡国立

文章目录

abstract

emotional VC：只变情感，不变说话人音色和内容
和情感TTS很像，都是生成high-qualiyu emotional speech。
stage 1:使用说话人的数据进行风格初始化，解耦speaking style和linguistic content；
stage 2:使用少量情感数据对模型进行ft，让模型解耦emotional style和linguistic content；

introduction

主要贡献：

提出seq2seq的EVC 系统，利用TTS拜托了对平行数据的依赖；
可以基于少量情感数据实现；
和帧级别VC不同的是，对情感风格进行acoustic和linguistic embedding的对齐，
情感数据对WaveRNN vocoder进行ft，进一步提升合成语音表现力

method

在这里插入图片描述

基于中科大ASR-TTS-VC的模型框架

首先用多人普通TTS数据训练，style encoder含有丰富的说话人+风格的信息，推测其可以学到情感的信息通过少量的情感数据；
少量情感数据进行ft，模型参数共享；其中emotional encoder和emotion classifier来自stage 1；

假设的实验论证
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/120314656

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset

One-shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams

Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion

Using Seq2Seq + Attention to process text summarization task

ValueError: Dimensions must be equal, but are 16 and 28 for 'seq2seq/decoder/train/decoder

【论文学习笔记】《Deep Voice: Real-time Neural Text-to-Speech》

The Voice Conversion Challenge 2018

论文笔记：AugGPT: Leveraging ChatGPT for Text Data Augmentation

【读】seq2seq——（4）LCSTS: A Large Scale Chinese Short Text Summarization Dataset

【读】seq2seq——（3）Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

[论文笔记] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

sub2019ins:A Vocoder-free WaveNet Voice Conversion with Non-Parallel Data

2016 ICME:Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

Voice conversion with SI-DNN and KL divergence based mapping without parallel training data

Odessey2018:Average Modeling Approach to Voice Conversion with Non-Parallel Data

Parallel-data-free voice conversion using cycle-consistent adversarial networks

Seq2Seq

语音合成论文优选: A Neural Text-to-Speech Model Utilizing Broadcast Data Mixed with Background Music

Emotional Mastery Mini-Story Text 1 And 2

论文翻译：2023_THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement...

seq2seq模型

tensorflow seq2seq

seq2seq学习

seq2seq attention

seq2seq理解

seq2seq原理

PyTorch: SEQ2SEQ

seq2seq 函数

『RNN』SEQ2SEQ

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)