贝叶斯公式

贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。
这里写图片描述
其中P(A|B)是在B发生的情况下A发生的可能性。为完备事件组，即
在贝叶斯法则中，每个名词都有约定俗成的名称：
Pr(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。
按这些术语，Bayes法则可表述为：
后验概率 = (似然度 * 先验概率)/标准化常量　也就是说，后验概率与先验概率和似然度的乘积成正比。
另外，比例Pr(B|A)/Pr(B)也有时被称作标准似然度（standardised likelihood），Bayes法则可表述为：
后验概率 = 标准似然度 * 先验概率。

用机器学习视角理解
在机器学习的视角下，我们把A理解成“具有某特征”，把B理解成“类别标签”
这里写图片描述
贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要的计算“属于某类条件下具有某特征”的概率，属于有监督学习。

朴素贝叶斯：
加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法。
由于乘法交换律，朴素贝叶斯方法中算出来交换词语顺序的条件概率完全一样。
朴素贝叶斯简单高效：
“有些独立假设在各个分类之间的分布都是均匀的，所以对于似然的相对大小不产生影响；即便不是如此，也有很大的可能性各个独立假设所产生的消极影响或积极影响互相抵消，最终导致结果受到影响不大。”

朴素贝叶斯的三种模型

多项式模型: 重复的词语我们视为其出现多次。统计与判断时，都关注重复次数。
伯努利模型：将重复的词语都视为其只出现1次。这种方式更加简化与方便。当然它丢失了词频的信息，因此效果可能会差一些。
混合模型：在计算句子概率时，不考虑重复词语出现的次数，但是在统计计算词语的概率P（“词语”|S）时，却考虑重复词语的出现次数。

朴素贝叶斯方法优点：

对待预测样本进行预测，过程简单速度快。
对于多分类问题也同样很有效，复杂度也不会有大程度上升。
在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时我们需要的样本量也更少一点。
对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。

朴素贝叶斯方法缺点：

对于测试集中的一个类别变量特征，如果在训练集里没见过，直接算的话概率就是0了，预测功能就失效了。当然，平滑可以缓解这个问题，最常见的平滑技术就是拉普拉斯估测。
朴素贝叶斯中有分布独立的假设前提，而现实生活中这些predictor很难是完全独立的。

朴素贝叶斯方法常见应用场景：

文本分类/垃圾文本过滤/情感判别
多分类实时预测
推荐系统

朴素贝叶斯注意点：

连续数值型的特征不一定服从正态分布，一定要想办法把它们变换调整成满足正态分布。
对测试数据中的0频次项，一定要记得平滑。
朴素贝叶斯分类器一般可调参数比较少，比如scikit-learn中的朴素贝叶斯只有拉帕拉斯平滑因子alpha，类别先验概率class_prior和预算数据类别先验fit_prior。集中精力进行数据的预处理，及特征选择。

贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。
贝叶斯网络(Bayesian Network)，又称有向无环图模型(directed acyclic graphical model)，是一种概率图模型，借由有向无环图(Directed Acyclic Graphs, DAG)中得知一组随机变量{X1,X2…Xn}及其n组条件概率分布(Conditional Probability Distributions, CPD)的性质。
一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系（或非条件独立）。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是“果(children)”，两节点就会产生一个条件概率值。
每个结点在给定其直接前驱时，条件独立于其非后继。

一个简单的贝叶斯网络
这里写图片描述

python机器学习——贝叶斯方法

贝叶斯公式

朴素贝叶斯的三种模型

贝叶斯网络

猜你喜欢