LiveSpeechPortraits实现音频实时驱动视频

音频驱动视频的方案最近一年甚是火爆，这里分享的是南大的LiveSpeechPortraits，能够实现实时驱动，之前的方案很多都是速度慢或者是效果差，这篇论文思路也十分简单。

项目地址：yuanxunlu.github.io/projects/Li… 论文主要分为三个过程完成：

简要的说就是，第一阶段将音频转成待处理矩阵，第二阶段主要是收集面部的信息，这里主要是嘴部的动作、头部动作、眉毛等，这篇文章最有意思的是做了两个假设：（1）头部动作和语音是弱相关的，可以理解成也就是语音和头部动作关系不大，但是有一点点关系；（2）当前头部的和之前的头部动作也是弱相关；

把这两个假设分解一下，就是语音主要和嘴巴的动作相关，和头部运动有有点点关系，和眉毛等动作几乎没有相关性，所以我们就在论文看到，我们第一阶段处理音频得到的结果就输入给嘴巴运动，而眉毛是使用的采样，头部运行是使用的概率性的采用，这就把之前的假设融入的很到位。第三阶段是使用上述的汇总的结果使用图片翻译的方式生成预测图像，这一阶段使用的是gan的方式进行训练；

接下来，我们将上面的过程细细说来。

第一阶段

由于音频的序列，所以首先是将音频输入给gru模块，可以得到speech representations，这里的模块是使用的APC模型，是语音识别常用的前处理的常用模型；得到speech representations还未完，为了保证模型的鲁棒性，接下来是将speech representations做了流行映射，这样保证未来在输入音频和现有的音频分布不一致时也能达到一个较好的效果，而不至于效果很差。