朴素:属性条件独立性假设。即假设每个属性独立地对分类结果发生影响。
朴素贝叶斯分类器重写了书中的式(7.8)为:
P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c)
其中,
∏i=1dP(xi∣c)=P(x1∣c)∗P(x2∣c)∗⋯∗P(xn∣c) 。
d为属性数目,
xi为
x在第i个属性上的取值。
基于书中式(7.6),即
h∗(x)=cϵyargmaxP(c∣x) ,基于该式,将式(7.8)代入,(由于P(x)对所有类别来说是相同的,可以省略),可以得到下面:
hnb(x)=cϵyargmaxP(c)i=1∏dP(xi∣c)
这就是朴素贝叶斯分类器的表达式。
即给定x的情况下,贝叶斯分类器最可能出现的情况c,P(x)省略。
- 令
Dc 表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:
P(c)=∣D∣∣Dc∣
(1)对离散属性而言,令
Dc,xi表示
Dc中在第i 个属性上取值为
xi 的样本组成的集合,则条件概率
P(xi∣c)可估计为:
(这里不是绝对值,而表示集合大小)
P(xi∣c)=∣Dc∣∣Dc,xi∣
(2)对连续属性可考虑概率密度函数,假定
p(xi∣c) N(μc,i,σc,i2),其中
μc,i和σc,i2分别是第c类样本在第i个属性上取值的均值和方差,则有:
P(xi∣c)=2π
σc,i1exp(−2σc,i2(xi−μc,i)2)
以下针对西瓜书P151中的例子进行验算:
可参考这篇文章
利用朴素贝叶斯算法训练出一个分类器,以判断一个具有特征{色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,触感=硬滑,密度=0.697,含糖率=0.460}的测试样例(“测1”)瓜(
xtest )是否为好瓜。