文章目录

0. 前言
1. 有向模型
2. 无向模型
3. 因子图
4. 分离和d-分离
5. 从图模型中采样

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~

花书+吴恩达深度学习（二三）结构化概率模型（贝叶斯网络、马尔可夫网络）
花书+吴恩达深度学习（二四）蒙特卡罗方法（重要采样，MCMC）
花书+吴恩达深度学习（二五）直面配分函数（CD, SML, SM, RM, NCE）
花书+吴恩达深度学习（二六）近似推断（EM, 变分推断）

0. 前言

结构化概率模型使用图来描述随机变量之间的直接相互作用，从而描述概率分布。

每一个节点代表一个随机变量，每一条边代表一个直接相互作用。

结构化概率模型的优点是，它们能够显著降低表示概率分布、学习和推断的成本。

有向模型和无向模型的区别是：有向模型通过从起始点的概率分布直接定义，无向模型通过 $\phi$ 函数转换为概率分布而定义。

1. 有向模型

有向图模型（directed graphical model）又被称为信念网络（belief network）或贝叶斯网络（Bayesian network）。

所有边都是有方向的，箭头所指的方向表示随机变量的概率分布是由其他随机变量决定的。

概率分布表示为：
$p(x)=\prod_{i}p(x_i\mid Pag(x_i))$
其中， $Pag(x_i)$ 表示 $x_i$ 的所有父节点。

例如下图所示（图源：深度学习）：

$t_1$ 依赖于 $t_0$ ， $t_2$ 直接依赖于 $t_1$ ，间接依赖于 $t_0$ ， $p(t_0,t_1,t_2)=p(t_0)p(t_1\mid t_0)p(t_2\mid t_1)$ 。

只要图中的每个变量都只有少量的父节点，那么分布就可以用较少的参数表示。

2. 无向模型

无向模型（undirected model）又被称为马尔可夫随机场（Markov random field）或马尔可夫网络（Markov network）。

无向模型适用于当变量间相互作用并没有本质性的指向，或者明确的双向作用时。

无向图中每一个团（节点的子集） $C$ 都有一个因子（团势能） $\phi(C)$ ，未归一化概率分布：
$\tilde{p}(x)=\prod_{C\in g}\phi(C)$
归一化概率分布：
$p(x)=\frac{1}{Z}\tilde{p}(x)\\ Z=\int \tilde{p}(x)dx$
当函数 $\phi$ 固定时，可以把 $Z$ 当成一个常数，归一化常数 $Z$ 被称为配分函数。

无向模型中许多理论都依赖于 $\forall x,\ \tilde{p}(x)>0$ 。

满足条件的简单方式是基于能量的模型 EBM（Energy-based model）：
$\tilde{p}(x)=\exp(-E(x))$
其中， $E(x)$ 被称作是能量函数。

基于能量的模型中的概率可以无限趋近于0但是永远达不到0.

许多对概率模型的操作不计算 $p_{model}(x)$ ，而是 $\log \tilde{p}_{model}(x)$ ，该量的负数称为自由能：
$F(x)=-\log\sum_{h}\exp(-E(x,h))$

3. 因子图

因子图（factor graph）是从无向模型中抽样的另一种方法，可以解决无向模型语法中的模糊性。

通过显式的表示每一个 $\phi$ 函数的作用域，如下图所示（图源：深度学习）：

4. 分离和d-分离

图中隐含的条件独立性称为分离（separation）。

分离的情况：

图显式的给定变量集 $S$ 的情况下，变量集 $A$ 和变量集 $B$ 无关
变量 $a$ 和 $b$ 之间没有路径
变量 $a$ 和 $b$ 之间的所有路径都包含可观测的变量

不分离的情况：

变量 $a$ 和 $b$ 之间的路径仅涉及未观测变量

在有向模型中，这些概念被称为d-分离。

d-分离的情况如下图所示（图源：深度学习）：

分离和d-分离只能告诉我们图中隐含的条件独立性。

5. 从图模型中采样

原始采样的基本思想是将图中的变量 $x_i$ 使用拓扑排序。

原始采样通常非常快，并且非常简便。

缺点是其仅适用于有向模型，并且不是每次采样都是条件采样操作。

从无向模型中采样时一个成本很高的多次迭代的过程，理论上最简单的方法是Gibbs采样。