1. Sentence-Level Emotion Embedding
- GST
- ...
2. Phoneme-Level Emotion Embedding
- 谢磊老师的论文,
- ...
3. Multi-Scale Emotion Embedding
- 句子, 词, 字, 多个级别, 但是文章没有 Demo
4. 翔哥的想法
句子级别力度和字级别力度分别能够控制, 更加接近了 TTS-Word 的愿景
4.1. 用于描述Emotion 的显性特征
- 本质上是显性的句子级别的和字级别的序列都提供给 Tacotron
- 可以当作句子级别是 Emotion, 字级别是 Emphasis ID Sequence, 这样比较便于理解, 可能也便于调
- 可以简化为句子级别是 F0 曲线和第一共振峰能量曲线, 字级别是 energy 序列和 duration 序列; 然后直接对接训练好的 FastPitch 就可
4.2. Multi-Scale Reference Encoder 输入的特征选取
- 正常使用 mel 谱
- 可能不同的级别, 送入不同处理的 mel 谱, 比如句子级别就先降采样, 或者加一些小噪声 (或者像 CV 一样引入噪声, 有篇论文具体这么做), 字级别就变成 int / float. 最终目的是变得和文本无关; 也可以加入 frame-level, 用的时候强制对齐
- 可以尝试弱化一点的 mel 谱, 比如使用 SP
- 也可以多增加一些, 比如除了 mel 以后, 还有 F0 曲线, 能量值
- 如何把一句话, 变成"嗡嗡", 就像音乐里面的那样: 可我已经分不清, 你是友情, 还是错过的爱情 -> 嗯嗯嗯嗯嗯嗯, 嗯嗯嗯嗯, 嗯嗯嗯嗯嗯嗯
4.3. 对音频进行文本的解耦
对文本上解耦, 本质上还是比较简单的. 因为大家的文本的分布还是一致的
- 陈礼杨是如何进行去除文本的? 比如是港中文的一篇论文, 但是没读过
- 翔哥说的, 同样的 Emotion 标签, 里面的句子互相当作 Reference Speech 去错开训练. 分块可以比类标签更细
- 让输出的 Emotion Feature 和 Encoded Output 的互信息尽量的少
4.4. 整体框架基于 Reference Attention
- 设计 Key, Value 等, 不过有些复杂, 目前先略
- 好处是可能直接可以解耦文本信息
5. 应用场景
5.1. 情感丰富迁移
- 一个语料是中性, 一个语料情感丰富. 然后可以让中性语料说多种情感
- 就像我们的重音合成
- 不过由于 Text 的文本冲突, 所以只能平行的合成文本
5.2. Audio Word 编辑器
- 可以定点改
- 整体效果还好
- 和重音的很像