如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
花书+吴恩达深度学习(二三)结构化概率模型(贝叶斯网络、马尔可夫网络)
花书+吴恩达深度学习(二四)蒙特卡罗方法(重要采样,MCMC)
花书+吴恩达深度学习(二五)直面配分函数(CD, SML, SM, RM, NCE)
花书+吴恩达深度学习(二六)近似推断(EM, 变分推断)
0. 前言
结构化概率模型使用图来描述随机变量之间的直接相互作用,从而描述概率分布。
每一个节点代表一个随机变量,每一条边代表一个直接相互作用。
结构化概率模型的优点是,它们能够显著降低表示概率分布、学习和推断的成本。
有向模型和无向模型的区别是:有向模型通过从起始点的概率分布直接定义,无向模型通过 函数转换为概率分布而定义。
1. 有向模型
有向图模型(directed graphical model)又被称为信念网络(belief network)或贝叶斯网络(Bayesian network)。
所有边都是有方向的,箭头所指的方向表示随机变量的概率分布是由其他随机变量决定的。
概率分布表示为:
其中,
表示
的所有父节点。
例如下图所示(图源:深度学习):
依赖于 , 直接依赖于 ,间接依赖于 , 。
只要图中的每个变量都只有少量的父节点,那么分布就可以用较少的参数表示。
2. 无向模型
无向模型(undirected model)又被称为马尔可夫随机场(Markov random field)或马尔可夫网络(Markov network)。
无向模型适用于当变量间相互作用并没有本质性的指向,或者明确的双向作用时。
无向图中每一个团(节点的子集)
都有一个因子(团势能)
,未归一化概率分布:
归一化概率分布:
当函数
固定时,可以把
当成一个常数,归一化常数
被称为配分函数。
无向模型中许多理论都依赖于 。
满足条件的简单方式是基于能量的模型 EBM(Energy-based model):
其中,
被称作是能量函数。
基于能量的模型中的概率可以无限趋近于0但是永远达不到0.
许多对概率模型的操作不计算
,而是
,该量的负数称为自由能:
3. 因子图
因子图(factor graph)是从无向模型中抽样的另一种方法,可以解决无向模型语法中的模糊性。
通过显式的表示每一个
函数的作用域,如下图所示(图源:深度学习):
4. 分离和d-分离
图中隐含的条件独立性称为分离(separation)。
分离的情况:
- 图显式的给定变量集 的情况下,变量集 和变量集 无关
- 变量 和 之间没有路径
- 变量 和 之间的所有路径都包含可观测的变量
不分离的情况:
- 变量 和 之间的路径仅涉及未观测变量
在有向模型中,这些概念被称为d-分离。
d-分离的情况如下图所示(图源:深度学习):
分离和d-分离只能告诉我们图中隐含的条件独立性。
5. 从图模型中采样
原始采样的基本思想是将图中的变量 使用拓扑排序。
原始采样通常非常快,并且非常简便。
缺点是其仅适用于有向模型,并且不是每次采样都是条件采样操作。
从无向模型中采样时一个成本很高的多次迭代的过程,理论上最简单的方法是Gibbs采样。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~