受限制玻尔兹曼机RBM原理简介

引言

受限玻尔兹曼机RBM在深度学习领域一直有重要的应用，之前一直没有接触过RBM，觉得太复杂，公式太多，这几天在Google上找到些好的turtorial，可以在这里做一个总结。

玻尔兹曼机BM

BM背景

Boltzmann machines（BM）是Markov Random Fields with pairwise interaction potentials. 这里的potential，也就是势能，是来源于物理的应用。BM和多层神经网络有着相似的结构，而且BM中的节点值是二值的(非0即1),BM的节点是成对作用的，Hinton使用了基于采样的方法用于BM的训练，使得BM能够被应用到具体问题。

玻尔兹曼分布(Boltzmann Distribution)

玻尔兹曼分布最开始是由Gibbs在统计原理里面提出来的，

P (x) = 1 Z e x p (- E (x))

$P(x) = \frac{1}{Z}exp(-E(x))$ ,其中

E(x) $E(x)$ 是变量

x $x$ 的能量，这里的能量仅仅是对应了物理学的概念，并没有额外的意义。

E (x) = - θ T f (x) = \sum j = 1 m θ j f j (x)

$E(x)=-\theta^Tf(x)=\sum_{j=1}^{m}\theta_jf_j(x)$ ,在统计原理里面，

x $x$ 经常是成对的，所以

E(x) $E(x)$ 是描述了

x $x$ 对的“势能”。

玻尔兹曼机结构

玻尔兹曼机是二值的马尔科夫随机场(Markov Random Filed)，一个玻尔兹曼机可以表示为带权重的无向图：
这里写图片描述
如上图所示，对于有n个节点的无向图，由于每个节点是二值的，所以一共有 $2^n$ 个状态，对于一个节点 $x_i$ ，其值为1 的时候表示这个节点是’on’，其值为1的时候表示这个节点是’off’，对于一个状态向量 $x$ ,也就是长度为 $n$ 的向量，表示这个图 $n$ 个节点的状态，其能量值为:

E (x) = - b T x - x T W x = - \sum j = 1 n b j x j - \sum i, j x i W i, j x j

$E(x) = -b^Tx-x^TWx = -\sum_{j=1}^{n}b_jx_j-\sum_{i,j}x_iW_{i,j}x_j$ ，

x $x$ 的概率分布为：

P (x) = 1 Z e x p (- E (x)) Z = \sum x' e x p (- E (x'))

$P(x)=\frac{1}{Z}exp(-E(x))\\Z= \sum_{x^{'}}exp(-E(x^{'}))$ ,在这里，

b $b$ 表示的长度为

n $n$ 的偏置向量，

W $W$ 是

n∗n $n*n$ 的连接矩阵，

Wi,j $W_{i,j}$ 表示的是节点

i $i$ 和节点

j $j$ 的连接权值，当然这里的矩阵乘积有几点需要注意，因为无向图的两个节点的连接权值只有一个，因此严格意义上来说，

E (x) = - \sum j = 1 n b j x j - \sum i < j x i x j w i, j

$E(x)=-\sum_{j=1}^{n}b_jx_j-\sum_{i<j}x_ix_jw_{i,j}$ .

可见节点和隐含节点

典型的BM有可见节点(Visible Node)和隐含节点(Hidden Node)，可见节点后面使用 $v$ 表示,隐含节点用 $h$ 表示，接着上文， $x$ 可以表示为

x = v ⊙ h

$x=v \odot h$ 其中

⊙ $\odot$ 表示的是向量连接操作，在这里我们可以把

v $v$ 理解为我们可见的训练参数，

h $h$ 理解为我们在训练数据里面的一些未知隐变量，如LDA里面的隐藏话题,现在的问题是，给定一组可见节点的训练数据

v1,v2,,,vn $v_1,v_2,,,v_n$ ，现在的问题是，寻找参数

W $W$ 和

b $b$ 是的训练预料的最大似然函数最大：

W ˆ, b ˆ = a r g m a x W, b ℓ D (W, b)

$\widehat{W},\widehat{b} = argmax_{W,b}\ell_D(W,b)$ ,其中

ℓ D (W, b) = \prod i = 1 n P (v i) P (v) = \sum h' P (v ⊙ h') = \sum h ' e x p ( - E ( v ⊙ h ' ) ) \sum h ' , v ' e x p ( - E ( v ' ⊙ h ' ) )

$\ell_D(W,b)=\prod_{i=1}^{n}P(v_i)\\P(v)=\sum_{h^{'}} P(v\odot h^{'})=\frac{\sum_{h^{'}}exp(-E(v\odot h^{'}))}{\sum_{h^{'},v^{'}}exp(-E(v^{'}\odot h^{'}))}$ ,其中

E (x) = - b T x - x T W x

$E(x)= -b^Tx-x^TWx$ ,这里的

v $v$ 是训练数据可见节点的状态序列，

h′ $h^{'}$ 表示的是隐含节点的状态序列，

v′ $v^{'}$ 表示的是所以可能的可见节点序列状态。

学习BM的参数

在上一节中，已经给出了 $p(v)$ 的最大似然函数，现在是如何训练。按照套路，根据最大似然函数的对数，我们对参数进行求导：

\partial ( l o g P ( v ) ) \partial θ = \sum n i = 1 l o g ( p ( v i ) ) \partial θ = \sum n i = 1 ( l o g \sum h ' e x p ( - E ( v ⊙ h ' ) ) - l o g ( \sum h ' , v ' e x p ( - E ( v ' ⊙ h ' ) ) ) ) \partial θ = \sum i = 1 n {\sum h ' ( e x p ( - E ( v ⊙ h ' ) ) \cdot \partial - E ( v ⊙ h ' ) \partial θ ) \sum h ' e x p ( - E ( v ⊙ h ' ) ) - \sum h ' , v ' ( e x p ( - E ( v ' ⊙ h ' ) ) \cdot \partial - E ( v ' ⊙ h ' ) \partial θ ) \sum h ' , v ' e x p ( - E ( v ' ⊙ h ' ) )} = \sum i = 1 n {\sum h' p (h' | v) \partial - E ( v ⊙ h ' ) \partial θ - \sum h', v' p (h', v') \partial - E ( v ' ⊙ h ' ) \partial θ} (1)

$\frac{\partial(log P(v))}{\partial\theta}=\\ \frac{\sum_{i=1}^{n}log(p(v_i))}{\partial\theta}=\frac{\sum_{i=1}^{n}(log\sum_{h^{'}}exp(-E(v\odot h^{'}))-log(\sum_{h^{'},v^{'}}exp(-E(v^{'}\odot h^{'}))))}{\partial\theta} \\= \sum_{i=1}^{n}\{\frac{\sum_{h^{'}}(exp(-E(v\odot h^{'}))\cdot \frac{\partial -E(v\odot h^{'})}{\partial\theta})}{\sum_{h^{'}}exp(-E(v\odot h^{'}))} - \frac{\sum_{h^{'},v^{'}}(exp(-E(v^{'}\odot h^{'}))\cdot \frac{\partial -E(v^{'}\odot h^{'})}{\partial\theta})}{\sum_{h^{'},v^{'}}exp(-E(v^{'}\odot h^{'}))} \} \\=\sum_{i=1}^{n}\{ \sum_{h{'}}p(h^{'}|v) \frac{\partial -E(v \odot h^{'})}{\partial\theta} - \sum_{h^{'},v^{'}}p(h^{'},v^{'}) \frac{\partial -E(v^{'} \odot h^{'})}{\partial\theta} \} (1)$
而：

\partial E \partial w j , k = - x j x k \partial E \partial b j = - x j

$\frac{\partial E}{\partial w_{j,k}}=-x_jx_k \\ \frac{\partial E}{\partial b_j}=-x_j$
因此：

\partial l o g ( P ( v ) ) \partial w j , k = \sum i = 1 n {\sum h' (P (h' | v) x j x k) - \sum h', v' (P (h', v') x j x k)} (2)

$\frac{\partial log(P(v))}{\partial w_{j,k}}=\sum_{i=1}^{n}\{ \sum_{h^{'}}( P(h'|v)x_jx_k )-\sum_{h^{'},v^{'}}( P(h',v^{'})x_jx_k)\}(2)$

\partial l o g ( P ( v ) ) \partial b j = \sum i = 1 n {\sum h' (P (h' | v) x j) - \sum h', v' (P (h', v') x j)} (3)

$\frac{\partial log(P(v))}{\partial b_{j}}=\sum_{i=1}^{n}\{ \sum_{h^{'}}( P(h'|v)x_j)-\sum_{h^{'},v^{'}}( P(h',v^{'})x_j)\}(3)$

其实可以看出的是这个训练有个巨大的问题是， $h^{'}$ 和 $v^{'}$ 都是未知的，如果对全部可能的状态进行计算，无疑其计算量将会是巨大的，这个训练是不可接受的。这里就要用到采样的方法了.常用的采样方法有MCMC和Gibbs采样，因为本人非数学专业出身，所以也就不想太钻研这些理论，这里直接上玻尔兹曼机的Gibbs采样的方法。

玻尔兹曼机的Gibbs采样方法

使用 $x_{-j}$ 更新 $x_j$ : $P(x_j|x_{-j})\propto P(x_j,x_{-j})$
使用 $P(x_j,x_{-j})$ 带入计算

玻尔兹曼机wake-sleep算法

*. wake 步：根据 $P(h^{'}|v)$ 采样生成 $h^{'}$
*. sleep步：根据 $P(v^{'}\odot h^{'})$ 采样生成 $v^{'}\odot h^{'}$ ，也叫”dream”步骤
*. 计算求导
*. 重复上述步骤
其实wake步就是对应公式(1)的前半部分采样，sleep步就是对应公式(1)的后半部分采样。

受限制玻尔兹曼机RBM

受限制玻尔兹曼机是一种特殊的玻尔兹曼机，之所以是受限的，是因为，在RBM中，所有的连接都是在隐含节点和可见节点之间的，而在隐含节点内部和可见节点内部并没有连接,一个典型的RBM的结构就是一个二分图：
这里写图片描述
RBM的能量函数和之前的BM是一样的：

E (v, h) = - b T v - c T h - h T W v

$E(v,h)= -b^Tv-c^Th-h^TWv$
其中

c $c$ 和

b $b$ 是隐含节点和可见节点的偏置参数，

w $w$ 是连接权重参数矩阵

RBM的wake-sleep方法

*. wake步骤，因为在RBM中，可见节点和隐含节点都是相互独立的，因此RBM的wake步骤可以直接计算，不需要采样
*. sleep步骤，在sleep步骤中仍然需要采样，但是有更加结构化的采样方法：Blocked Gibbs:
1. 利用可见节点数据采样隐含节点
2. 利用采样出来的隐含节点，采样隐含节点
这里每个采样步骤都可以并行！

对比分歧：Contrastive Divergence

上面提到了Blocked Gibbs,那么如何初始化采样器呢？对比分歧采样的是使用训练可见的数据进行初始化，而且不需要多次Blocked Gibbs采样。这种做法的启发是一个好的模型的采样器应该尽可能的接近可见的训练数据。
具体的操作步骤可以表示为：
这里写图片描述
上图表明了受限玻尔兹曼机中的采样方法，我们根据公式(2)算过的求取 $w_{i,j}$ 的方法：

\sum h' (P (h' | v) x j x k) - \sum h', v' (P (h', v') x j x k) = < h' k 0 (v j 0 - v' j 1) > + < h' k 1 (v j 1 - v' j 2) > + . . . = < v j 0 h' k 0 > - < v j \infty h' k \infty > \approx < v j 0 h' k 0 > - < v j 1 h' k 1 > (4)

$\sum_{h^{'}}( P(h'|v)x_jx_k )-\sum_{h^{'},v^{'}}( P(h',v^{'})x_jx_k)\ =<h^{'}_{k^{0}}(v_{j^{0}}-v^{'}_{j^{1}}) >+<h^{'}_{k^{1}}(v_{j^{1}}-v^{'}_{j^{2}}) >+...\\ =<v_{j^{0}}h^{'}_{k^{0}}>-<v_{j^{\infty}}h^{'}_{k^{\infty}}>\\ \approx <v_{j^{0}}h^{'}_{k^{0}}>-<v_{j^{1}}h^{'}_{k^{1}}>(4)$
其实可以看出，只需采样两个Blocked Gibbs即可。如果这两次采样的结果是一致的，参数将不会进行更新。采样这种方法，我们就可以使用熟悉的随机梯度下降的方法来进行训练了.
文字性的描述RBM 的采样和更新方法：
1. 使用训练数据可视化可见节点
2. 使用可见节点数据更新隐含节点
3. 使用隐含节点再次更新可见节点数据
4. 使用新的可见节点数据再次更新新的隐含节点序列
到这一步，我们可以很容易的对RBM的参数进行更新了，我们将P(h^{‘}|v)和P(v^{‘}\odot h^{‘})设置成相同的值，可以设置成

1N $\frac{1}{N}$ ,那么我们将得到RBM的参数更新公式：

\partial l o g ( p ( v ) ) \partial w i , j \approx 1 N \sum n = 1 N [v (n) i h (n) i - v (n) i^h (n) i^]

$\frac{\partial log(p(v))}{\partial w_{i,j}} \approx \frac{1}{N}\sum_{n=1}{N}[v_i^{(n)}h_i^{(n)}-\hat{v_i^{(n)}}\hat{h_i^{(n)}}]$
这个式子可以具体对应到公式(4)，那么如何更新值呢？在RBM中按照下面的步骤进行更新RBM网络的值：
1. 使用输入可见节点数据更新隐含节点：

h j = 1 1 + e x p ( - \sum i v i w i , j - b j ) h j = ⟮ 0, o t h e r w i s e 1, i f h j > r a n d (0, 1)

$h_j = \frac{1}{1+exp(-\sum_{i}v_iw_{i,j}-b_j)}\\ h_j = \lgroup_{1, if h_j >rand(0,1)}^{0,otherwise}$ ，
2. 使用步骤1中的

hj $h_j$ 更新新的可见节点：

v i^= 1 1 + e x p ( - \sum j w i , j h j - b i )

$\hat{v_i}=\frac{1}{1+exp(-\sum_{j}w_{i,j}h_j-b_i)}$ ,然后使用

vi^ $\hat{v_i}$ 更新新的隐含节点：

h j^= 1 1 + e x p ( - \sum i w i , j v i ^ - b j )

$\hat{h_j}=\frac{1}{1+exp(-\sum_{i}w_{i,j} \hat{v_i}-b_j)}$
至此我们可以得到各个参数更新的方法：

\partial l o g ( p ( v | θ ) ) \partial w i , j \approx 1 N \sum n = 1 N [v n i h (n) j - v n i^h (n) j^] \partial l o g ( p ( v | θ ) ) \partial b i \approx 1 N \sum n = 1 N [v n i - v n i^] \partial l o g ( p ( v | θ ) ) \partial b j \approx 1 N \sum n = 1 N [h n j - h n j^]

$\frac{\partial log(p(v|\theta))}{\partial w_{i,j}} \approx \frac{1}{N}\sum_{n=1}^{N}[v_i^{n}h_j^{(n)}-\hat{v_i^{n}}\hat{h_j^{(n)}}]\\ \frac{\partial log(p(v|\theta))}{\partial b_{i}} \approx \frac{1}{N}\sum_{n=1}^{N}[v_i^{n}-\hat{v_i^{n}}]\\ \frac{\partial log(p(v|\theta))}{\partial b_{j}} \approx \frac{1}{N}\sum_{n=1}^{N}[h_j^{n}-\hat{h_j^{n}}]$
到这里我们应该也能够明白，这篇传阅度很广的博客： Introduction to Restricted Boltzmann Machines的里面的参数更新原理了。

[注：本渣硕的数学功底有限，简单的推导已经是穷尽高数的知识了，不对的地方请勘正，也可以联系我的邮箱:[email protected]