(2020.6.20)MOCO

参考资料:1911.05722和2003.04297——Kaiming大神最近很火的两篇成果。

BERT在自然语言里如火如荼,图像领域也开始尝试大规模自监督预训练了。但是相比自然语言处理,图像是连续的值,Embedding不是简单的look up的过程,而是待训练的encoder。而训练自监督的时候,需要反例足够多,每次随机采样反例然后输入encoder不太现实,因此作者提出了用队列保存已经encode过的样本做反例,减少了重复计算。但是这样操作带来的问题是,encoder会随着训练变化,作者提出了用momentum的方法,一方面让队列里的embedding变化不要太剧烈(也就是论文里说的一致性问题),另一方面也会随着梯度下降慢慢学习(也就是论文里说的动态变化)。

但是这里可能有点反直觉,有两个encoder,一个训练,一个小幅度跟进,真的能train起来吗?论文用实验证明了,可以。

这种想法显然也可以用在语音上,估计过不了多久就会出来语音版的MOCO了。(也许是Hung-yi老师组?)

猜你喜欢

转载自www.cnblogs.com/sqlkrad/p/13170231.html