机器学习中的数学——EM算法与高斯混合模型(GMM)

前言:

期望极大(Expectation Maximization)算法,也称EM算法,是一种迭代算法,由Dempster et. al 在1977年提出,用于含有隐变量的概率参数模型的极大似然估计,或极大后验概率估计。EM算法作为一种数据添加算法,在近几十年得到迅速的发展,主要源于当前科学研究以及各方面实际应用中数据量越来越大的情况下,经常存在数据缺失或者不可用的的问题,这时候直接处理数据比较困难,而数据添加办法有很多种,常用的有神经网络拟合、添补法、卡尔曼滤波法等,但是EM算法之所以能迅速普及主要源于它算法简单,稳定上升的步骤能相对可靠地找到“最优的收敛值”。

EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在Dempster,Laird和Rubin三人于1977年所做的文章《Maximum likelihood from incomplete data via the EM algorithm》中给出了详细的阐述。其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。

随着理论的发展,EM算法己经不单单用在处理缺失数据的问题,运用这种思想,它所能处理的问题更加广泛。有时候缺失数据并非是真的缺少了,而是为了简化问题而采取的策略,这时EM算法被称为数据添加技术,所添加的数据通常被称为“潜在数据”,复杂的问题通过引入恰当的潜在数据,能够有效地解决其相应的问题。

前段时间的讨论班正好讲到这块的内容,于是把之前的稿子整理了一下分享给大家。本文先叙述EM算法,讨论EM算法的收敛性,并介绍高斯混合模型(GMM)及EM算法在其求解中的应用,最后简单介绍GMM在大脑MRI组织分割中的应用。

1. EM算法的介绍

2. EM算法的推导

2.1 EM算法的收敛性

3. 高斯混合模型(GMM)

3.2 EM算法的推广

4. 受限高斯混合模型

5. 大脑MRI组织分割实验

猜你喜欢

转载自blog.csdn.net/leichangqing/article/details/89021021