2021-3-6组会 Multi-Scale Emotion TTS 分享

1. Sentence-Level Emotion Embedding

  1. GST
  2. ...

2. Phoneme-Level Emotion Embedding

  1. 谢磊老师的论文,
  2. ...

3. Multi-Scale Emotion Embedding

  1. 句子, 词, 字, 多个级别, 但是文章没有 Demo

4. 翔哥的想法

句子级别力度和字级别力度分别能够控制, 更加接近了 TTS-Word 的愿景

4.1. 用于描述Emotion 的显性特征

  1. 本质上是显性的句子级别的和字级别的序列都提供给 Tacotron
  2. 可以当作句子级别是 Emotion, 字级别是 Emphasis ID Sequence, 这样比较便于理解, 可能也便于调
  3. 可以简化为句子级别是 F0 曲线和第一共振峰能量曲线, 字级别是 energy 序列和 duration 序列; 然后直接对接训练好的 FastPitch 就可 

4.2. Multi-Scale Reference Encoder 输入的特征选取

  1. 正常使用 mel 谱
  2. 可能不同的级别, 送入不同处理的 mel 谱, 比如句子级别就先降采样, 或者加一些小噪声 (或者像 CV 一样引入噪声, 有篇论文具体这么做), 字级别就变成 int / float. 最终目的是变得和文本无关; 也可以加入 frame-level, 用的时候强制对齐
  3. 可以尝试弱化一点的 mel 谱, 比如使用 SP
  4. 也可以多增加一些, 比如除了 mel 以后, 还有 F0 曲线, 能量值
  5. 如何把一句话, 变成"嗡嗡", 就像音乐里面的那样: 可我已经分不清, 你是友情, 还是错过的爱情 -> 嗯嗯嗯嗯嗯嗯, 嗯嗯嗯嗯, 嗯嗯嗯嗯嗯嗯 

4.3. 对音频进行文本的解耦

对文本上解耦, 本质上还是比较简单的. 因为大家的文本的分布还是一致的

  1. 陈礼杨是如何进行去除文本的? 比如是港中文的一篇论文, 但是没读过
  2. 翔哥说的, 同样的 Emotion 标签, 里面的句子互相当作 Reference Speech 去错开训练. 分块可以比类标签更细
  3. 让输出的 Emotion Feature 和 Encoded Output 的互信息尽量的少

4.4. 整体框架基于 Reference Attention

  1. 设计 Key, Value 等, 不过有些复杂, 目前先略
  2. 好处是可能直接可以解耦文本信息

5. 应用场景

5.1. 情感丰富迁移

  1. 一个语料是中性, 一个语料情感丰富. 然后可以让中性语料说多种情感
  2. 就像我们的重音合成
  3. 不过由于 Text 的文本冲突, 所以只能平行的合成文本

5.2. Audio Word 编辑器

  1. 可以定点改
  2. 整体效果还好
  3. 和重音的很像

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/114444277
TTS