概率图模型分为贝叶斯网络和马尔可夫网络两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表示成一个无向图的网络结构。
概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型。
一、 朴素贝叶斯算法 (简单)
根据应用场景不同可以分为3个分类算法:GaussianNB,MultinomialNB和BernoulliNB。
- GaussianNB就是先验为高斯分布的朴素贝叶斯,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好。
- MultinomialNB就是先验为多项式分布的朴素贝叶斯,如果样本特征的分大部分是多元离散值,使用MultinomialNB比较合适。
- BernoulliNB就是先验为伯努利分布的朴素贝叶斯。如果样本特征是二元离散值或者很稀疏的多元离散值,应该使用BernoulliNB。
二、贝叶斯网络
贝叶斯网络基本概念有两个:引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。
三、马尔可夫模型
四、生成式模型与判别式模型
- 生成式模型有:朴素贝叶斯、贝叶斯网络、pLSA、LDA、隐马尔可夫模型。
- 判别式模型有:最大熵模型、条件随机场。
四、主题模型
常见的主题模型有:pLSA、LDA等。pLSA是用一个生成模型来建模文章的生成过程,LDA是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,但其为主题分布和词分布分别加了两个狄利克雷(Dirichlet)先验。