Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion


会议:2019 icassp
作者:Shreyas Seshadri⋆
单位:Aalto University, Finland
github链接
demo链接,效果还不错

  • 创新点:基于非平行数据,实现了比INCA(之前最常用的方法)更好的转换效果。
  • INCA: Iterative combination of a Nearest Neighbor search step and a Conversion step Alignment method

abstract

  • speaking style conversion(SSC)是把正常的说话风格转换为另外一种风格。本文使用cycle-consistent adversarial net将正常的说话变成Lombard(伦巴)风格—大声讲话的风格。
  • 应用:嘈杂环境下增强可懂度
  • 本文用Pulse Model in Log domain (PML) vocoder 提取声学特征,然后用cycleGAN网络做source和target之间的映射,完成风格转换。

1. introduction

vocal effort(可以理解为音量)based SSC,转换的方式whisper-to-normal (低语声–正常声)or normal-to-Lombard(正常声—大声讲),同时保证说话人身份和文本信息不变。

  • 之前有whispered-to-normal的工作,其他形式的SSC基本是基于平行数据(同一个人,同样内容,不同风格)或者直接信号的手动修正做的。

3. non-parallel speaking style conversion

  • 使用到的特征(1)binary noise mask;(2)F0;(3)VUV;(4)谱包络-- the first 10 MGC coefficients (包含了谱包络的主要特征)

3.2 mapping methods

  • 作者通过大量实验设计了一个好的网络结构,并且开源了代码

4. experimental setup

  • 数据集有20个speaker,18个用于train,2个用于eval

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/113741143
今日推荐