一、介绍

玻尔兹曼机连接的每个节点都是离散的二值分布，是全连接的，是为了解决局部最小值的问题而提出的玻尔兹曼机。

在这里插入图片描述

$v=\{0,1\}^D\;\;\;\;\;h=\{0,1\}^P\\L=\Big[L_{ij}\Big]_{D*D}\\J=\Big[J_{ij}\Big]_{P*P}\\W=\Big[W_{ij}\Big]_{D*P}$

$\left\{\begin{matrix} p(v,h)= \frac1Z\exp\{-E(v,h)\}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\E(v,h)=-(v^TWh+\frac12v^TLv+\frac12h^TJh)\end{matrix}\right.\\\theta=\{W,L,J\}$

二、Log似然的梯度

样本集合： $V,\;|V|=N$

$P(v)=\sum_hp(v,h)\\\frac1N\sum_{v\in V}\log P(v)\leftarrow\;\;log-likelihood\\\frac\partial {\partial \theta}\frac1N\sum_{v\in V}\log P(v)=\frac1N\sum_{v\in V}{\color{blue}\frac{\partial\log P(v)} {\partial \theta}}\leftarrow gradient\;of\;log-likelihood$

$\frac{\partial\log P(v)} {\partial \theta}=\sum_v\sum_h p(v,h)\cdot\frac{\partial E(v,h)}{\partial \theta}-\sum_hp(h|v)\cdot\frac{\partial E(v,h)}{\partial \theta}$
$\frac{\partial\log P(v)} {\partial W}=\sum_v\sum_h p(v,h)\cdot(-vh^T)-\sum_hp(h|v)\cdot(-vh^T)\\=\sum_hp(h|v)\cdot vh^T-\sum_v\sum_h p(v,h)\cdot vh^T$

所以，

扫描二维码关注公众号，回复： 12192685 查看本文章

$\frac1N\sum_{v\in V}{\frac{\partial\log P(v)} {\partial \theta}}=\frac1N\sum_{v\in V}\sum_hp(h|v)\cdot vh^T-\frac1N\sum_{v\in V}\sum_v\sum_h p(v,h)\cdot vh^T\\=\frac1N\sum_{v\in V}\sum_hp(h|v)\cdot vh^T-\sum_v\sum_h p(v,h)\cdot vh^T\\=E_{P_{Data}}\Big[vh^T\Big]-E_{P_{model}}\Big[vh^T\Big]$
$P_{Data}=P_{Data}(v)P_{model}(h|v)\\P_{model}=P_{model}(h,v)=P_{model}(v)P_{model}(h|v)$

三、基于MCMC的随机梯度上升

由上述推导，同理可得：

$\Delta W=\partial\Bigg(E_{P_{Data}}\Big[vh^T\Big]-E_{P_{model}}\Big[vh^T\Big]\Bigg)$
$\Delta L=\partial\Bigg(E_{P_{Data}}\Big[vv^T\Big]-E_{P_{model}}\Big[vv^T\Big]\Bigg)$
$\Delta J=\partial\Bigg(E_{P_{Data}}\Big[hh^T\Big]-E_{P_{model}}\Big[hh^T\Big]\Bigg)$

$P_{Data}=P_{Data}(v)P_{model}(h|v)\\P_{model}=P_{model}(h,v)=P_{model}(v)P_{model}(h|v)$

$W^{(t+1)}=W^{(t)}+\Delta W$

$\Delta w_{ij}=\partial\Bigg(\underset{positive\;phase}{\underbrace{E_{P_{Data}}\Big[v_ih_j\Big]}}-\underset{negative\;phase}{\underbrace{E_{P_{model}}\Big[v_ih_j\Big]}}\Bigg)$
但是无论是正向还是负向都是难以处理的，是intractable的。

$p(v_i=1|h,v_{-i})=\sigma(\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^DL_{ik}v_k)\\p(h_i=1|v,h_{-i})=\sigma(\sum_{j=1}^Dw_{ij}v_j+\sum_{m=1/i}^PJ_{im}h_m)$

RBM:（如下图）
$p(h|v)=\prod_{j=1}^3p(h_j|v)\\p(h_{j=1}|v)=p(h_{j=1}|v,h_{-j})=\sigma(\sum_{i=1}^PW_{ij}v_i)$

四、条件概率推导

$p(v_i=1|h,v_{-i})=\sigma(\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^DL_{ik}v_k)\\p(h_i=1|v,h_{-i})=\sigma(\sum_{j=1}^Dw_{ij}v_j+\sum_{m=1/i}^PJ_{im}h_m)$

$p(v_i|h,v_{-i})=\frac{p(v,h)}{p(h,v_{-i})}\\=\frac{\frac1Z\exp\{-E(v,h)\}}{\sum_{v_i}\frac1Z\exp\{-E(v,h)\}}\\=\frac{\exp\{v^TWh+\frac12v^TLv+\frac12h^TJh\}}{\sum_{v_i}\exp\{v^TWh+\frac12v^TLv+\frac12h^TJh\}}\\=\frac{\exp\{v^TWh+\frac12v^TLv\}}{\sum_{v_i}\exp\{v^TWh+\frac12v^TLv\}}\\=\frac{\exp\{v^TWh+\frac12v^TLv\}}{\exp\{v^TWh+\frac12v^TLv\}\Bigg|_{v_i=0}+\exp\{v^TWh+\frac12v^TLv\}\Bigg|_{v_i=1}}$

所以，

$p(v_i=1|h,v_{-i})=\frac{\exp\{v^TWh+\frac12v^TLv\}\Bigg|_{v_i=1}}{\exp\{v^TWh+\frac12v^TLv\}\Bigg|_{v_i=0}+\exp\{v^TWh+\frac12v^TLv\}\Bigg|_{v_i=1}}$
令 $\Delta=\exp\{v^TWh+\frac12v^TLv\}$
所以， $p(v_i=1|h,v_{-i})=\frac{\Delta_{v_i=1}}{\Delta_{v_i=0}+\Delta_{v_i=1}}$

$\Delta_{v_i}=\exp\{v^TWh+\frac12v^TLv\}\\=\exp\{\sum_{\hat i=1}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1}^D\sum_{k=1}^Dv_{\hat i}l_{\hat ik}v_k\}\\=\exp\{\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\sum_{j=1}^Pv_{i}w_{ij}h_j+\frac12\Big(\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k+\sum_{\hat i=1/i}^Dv_{\hat i}l_{\hat ii}v_i+\sum_{k=1/i}^Dv_{i}l_{ik}v_k\Big)\}\\=\exp\{\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\sum_{j=1}^Pv_{i}w_{ij}h_j+\frac12\Big(\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k+2\sum_{k=1/i}^Dv_{i}l_{ik}v_k\Big)\}\\=\exp\{v_{i}\Big(\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k\Big)+\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}$
不难看出只有第一项与 $v_i$ 有关，所以，
$\Delta_{v_i=0}=\exp\{\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}$
$\Delta_{v_i=1}=\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k+\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}$
所以，
$p(v_i=1|h,v_{-i})=\frac{\Delta_{v_i=1}}{\Delta_{v_i=0}+\Delta_{v_i=1}}\\=\frac{\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k+\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}}{\exp\{\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}+\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k+\sum_{\hat i=1/i}^D\sum_{j=1}^Pv_{\hat i}w_{\hat ij}h_j+\frac12\sum_{\hat i=1/i}^D\sum_{k=1/i}^Dv_{\hat i}l_{\hat ik}v_k\}}\\=\frac{\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k\}}{1+\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k\}}\\=\frac1{1+\exp\{\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^Dl_{ik}v_k\}^{-1}}\\=\sigma(\sum_{j=1}^Pw_{ij}h_j+\sum_{k=1/i}^DL_{ik}v_k)$

同理可得，

$p(h_i=1|v,h_{-i})=\sigma(\sum_{j=1}^Dw_{ij}v_j+\sum_{m=1/i}^PJ_{im}h_m)$

五、基于平均场理论的变分推断

$L=ElBO=\log p_\theta(v)-KL(q_\phi||p_\theta)=\sum_hq_\phi(h|v)\log p_\theta(v,h)+H[q]$
$q_\phi(h|v)=\prod_{j=1}^Pq_\phi(h_j|v)\;\;\;\;\;\;\;\;\;\;q_\phi(h_j=1|v)=\phi_j,\;\;\;\;\;\;\;\phi=\{\phi_j\}_{j=1}^P$
$\hat\phi_j=\argmax_{\phi_j} L\\=\argmax_{\phi_j} \sum_hq_\phi(h|v)\Big[-\log Z+v^TWh+\frac12v^TLv+\frac12h^TJh\Big]+H[q]\\=\argmax_{\phi_j} \sum_hq_\phi(h|v)\Big[-\log Z+\frac12v^TLv\Big]+\sum_hq_\phi(h|v)\Big[v^TWh+\frac12h^TJh\Big]+H[q]\\=\argmax_{\phi_j} \sum_hq_\phi(h|v)\Big[v^TWh+\frac12h^TJh\Big]+H[q]\\=\argmax_{\phi_j} \underset{①}{\underbrace{\sum_hq_\phi(h|v)\cdot v^TWh}}+\underset{②}{\underbrace{\frac12\sum_hq_\phi(h|v)\cdot h^TJh}}+\underset{③}{\underbrace{H[q]}}$

$①=\sum_hq_\phi(h|v)\cdot \sum_{i=1}^D\sum_{j=1}^Pv_iw_{ij}h_j\\=\sum_h\prod_{\hat j=1}^Pq_\phi(h_{\hat j}|v)\cdot \sum_{i=1}^D\sum_{j=1}^Pv_iw_{ij}h_j$
因为， $\sum_h\prod_{\hat j=1}^Pq_\phi(h_{\hat j}|v)\cdot v_1w_{12}h_2=\sum_{h_2}q_\phi(h_2|v)\cdot v_1w_{12}h_2\cdot\sum_{h/h_2}\prod_{\hat j=1/2}^Pq_\phi(h_{\hat j}|v)\\=\sum_{h_2}q_\phi(h_2|v)\cdot v_1w_{12}h_2\\=q_\phi(h_2=1|v)\cdot v_1w_{12}\\=\phi_2v_1w_{12}$
所以， $①=\sum_{i=1}^D\sum_{\hat j=1}^P\phi_{\hat j}v_iw_{i\hat j}$
同理， $②=\sum_{\hat j=1}^P\sum_{m=1/j}^P\phi_{\hat j}\phi_mJ_{\hat jm}$
$③=-\sum_{j=1}^P\Big[\phi_j\log\phi_j+(1-\phi_j)\log(1-\phi_j)\Big]$

分别对①、②、③求偏导，

$\frac{\partial①}{\partial\phi_j}=\sum_{i=1}^Pv_iw_{ij}$
$\frac{\partial②}{\partial\phi_j}=\sum_{m=1/j}^P\phi_mJ_{jm}$
$\frac{\partial③}{\partial\phi_j}=-\log\frac{\phi_j}{1-\phi_j}$

所以，

令， $\frac{\partial\Big[①+②+③\Big]}{\partial\phi_j}=0$
得， $\phi_j=\sigma(\sum_{i=1}^Dv_iw_{ij}+\sum_{m=1/j}^P\phi_mJ_{jm})$
不动点方程，解法（坐标上升）
$\hat\phi=\{\hat\phi_j\}^P_{j=1}$

RBM：白板推导系列笔记（二十一）-受限玻尔兹曼机

下一章传送门：白板推导系列笔记（二十九）-深度玻尔兹曼机

机器学习-白板推导系列笔记（二十八）-BM

一、介绍

二、Log似然的梯度

三、基于MCMC的随机梯度上升

四、条件概率推导

五、基于平均场理论的变分推断

猜你喜欢