Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion - 代码天地

Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion

其他 2021-12-14 18:16:36 阅读次数: 0

文章目录

会议：2019 icassp
作者：Shreyas Seshadri⋆
单位：Aalto University, Finland
github链接
demo链接，效果还不错

创新点：基于非平行数据，实现了比INCA(之前最常用的方法）更好的转换效果。
INCA: Iterative combination of a Nearest Neighbor search step and a Conversion step Alignment method

abstract

speaking style conversion(SSC)是把正常的说话风格转换为另外一种风格。本文使用cycle-consistent adversarial net将正常的说话变成Lombard（伦巴）风格—大声讲话的风格。
应用：嘈杂环境下增强可懂度
本文用Pulse Model in Log domain (PML) vocoder 提取声学特征，然后用cycleGAN网络做source和target之间的映射，完成风格转换。

1. introduction

vocal effort(可以理解为音量）based SSC，转换的方式whisper-to-normal （低语声–正常声）or normal-to-Lombard（正常声—大声讲），同时保证说话人身份和文本信息不变。

之前有whispered-to-normal的工作，其他形式的SSC基本是基于平行数据（同一个人，同样内容，不同风格）或者直接信号的手动修正做的。

3. non-parallel speaking style conversion

使用到的特征（1）binary noise mask；（2）F0；（3）VUV；（4）谱包络-- the first 10 MGC coefficients (包含了谱包络的主要特征）

3.2 mapping methods

作者通过大量实验设计了一个好的网络结构，并且开源了代码

4. experimental setup

数据集有20个speaker，18个用于train，2个用于eval

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/113741143

Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion

Parallel-data-free voice conversion using cycle-consistent adversarial networks

Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

Transferring Source Style in Non-Parallel Voice Conversion

CVPR：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

CycleGAN论文详解:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

CycleGAN：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

《Unpaired Image-to-Image Translatin usig Cycle-Consistent Adversarial Networks》探析

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks笔记

CycleGAN（2017）：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

CycleGAN:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

A Style-Based Generator Architecture for Generative Adversarial Networks（论文翻译）

F0-CONSISTENT MANY-TO-MANY NON-PARALLEL VOICE CONVERSION VIA CONDITIONAL AUTOENCODER

A Style-Based Generator Architecture for Generative Adversarial Networks 翻译3&4

A Style-Based Generator Architecture for Generative Adversarial Networks 翻译1&2

A Style-Based Generator Architecture for Generative Adversarial Networks---阅读笔记

生成网络论文阅读styleGAN1（二）：A Style-Based Generator Architecture for Generative Adversarial Networks

【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks

【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

【GAN】【论文笔记】A Style-Based Generator Architecture for Generative Adversarial Networks

[论文阅读] CyCADA: Cycle-Consistent Adversarial Domain Adaptation

A Style-Based Generator Architecture for Generative Adversarial Networks（基于样式的对抗生成网络生成器体系结构）

[Style Transfer]—Generative adversarial networks and adversarial method in biomedical image analysis

sub2019ins:A Vocoder-free WaveNet Voice Conversion with Non-Parallel Data

Odessey2018:Average Modeling Approach to Voice Conversion with Non-Parallel Data

StarGAN-VC： non-parallel many-to-many voice conversion with StaGAN

语音合成论文优选：声音转换Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic

[Style Transfer]——Blood Vessel Geometry Synthesis using Generative Adversarial Networks

Recommender Systems Based on Generative Adversarial Networks: A Problem-Driven Perspective

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)