帮助理解GAN的一些补充内容

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Miss_yan/article/details/83350888

的本质是香农信息量(log 1 p \frac{1}{p} ),其中p表示信息确定性的概率。
信息熵即为信源不确定均值 H ( u ) = E [ l o g P i ] = i = 1 n p i l o g p i H(u)=E[-logP_i]=-\sum_{i=1}^{n}p_{i}logp_{i}
特点:根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布得到的平均编码长度H§,实际上H(p,q)>=H§恒成立
相对熵:由q得到的平均编码长度比由p得到的平均编码长度多出来的位就是相对熵 D ( p q ) = H ( p , q ) H ( p ) = i p ( i ) l o g p ( i ) q ( i ) D(p||q)= H(p,q) - H(p) =\sum_{i}p(i)*log\frac{p(i)}{q(i)} ,又称为KL散度
GAN产生训练不稳定的原因:g(z)至多产生的维度为dim(z),如果 d i m ( z ) < d i m ( x ) dim(z)<dim(x) ,则g(z)在x中的测度会非常小,也即它只能产生一个平面中的一条线(个人理解,详情可参考上一篇文章),所以如果g的输入维数比产生图像的维数低,那么它能产生的也只是一个零测集,当 P r P_{r} 的支撑集和 P g P_{g} 没有交集时,当D最优时,就会使G的梯度变得非常不稳定。
WGAN训练,采用SGD或RMSProp算法较好,一般不采用基于momentum的算法(如Adam),会导致训练变得不稳定,DCGAN采用Adam效果会比较好

猜你喜欢

转载自blog.csdn.net/Miss_yan/article/details/83350888