1 假设
计算
P(X|Ci)
,朴素贝叶斯分类假设类条件独立,即给定样本属性值相互条件独立。
P(x1,…,xk|Ci)=P(x1|Ci)⋅…⋅P(xk|Ci)
2 Notion
贝叶斯定理:
P(Ci|X)=P(X|Ci) ⋅ P(Ci)P(X)=P(X|Ci) ⋅ P(Ci)∑cj=1P(X|Cj) ⋅ P(Cj)
i
表示
label
的类别数
j
也表示
label
的类别数,只是为了区别于
i
先验概率
prior probability
:
P(Ci)
概率密度函数
probability density function
:
P(X|Ci)
后验概率
posteriori probabilities
:
P(Ci|X)
总结,根据先验概率和概率密度函数,计算后验概率
eg: 对于一个二分类问题,
yes or no
, 对应的贝叶斯公式如下
P(Yes|X)=P(X|Yes)⋅P(Yes)P(X)=P(X|Yes) ⋅ P(Yes)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)
P(No|X)=P(X|No)⋅P(No)P(X)=P(X|No) ⋅ P(No)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)
如果
P(Yes|X)>P(No|X)
,分类结果为
Yes
,反之结果为
No
3 Simple Example
对
X={Gender=Female,Income=High,Age=Middle}
计算分类结果
Yes or No
P(Yes)=3/6
由图知
P(Gender=Female∣Yes)=2/3
P(Income=High∣Yes)=3/3
P(Age=Middle∣Yes)=1/3
所以
P(X∣Yes)⋅P(Yes)=P(Gender=Female∣Yes)⋅P(Income=High∣Yes)⋅P(Age=Middle∣Yes)⋅P(Yes)=23×33×13×36≈0.111
P(No)=3/6
由图知
P(Gender=Female∣No)=1/3
P(Income=High∣No)=1/3
P(Age=Middle∣No)=2/3
所以
P(X∣No)⋅P(No)=P(Gender=Female∣No)⋅P(Income=High∣No)⋅P(Age=Middle∣No)⋅P(No)=13×13×23×36=0.037
P(Yes|X)=P(X|Yes) ⋅ P(Yes)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)=0.1110.111+0.037=75%
P(No|X)=P(X|No) ⋅ P(No)P(X|Yes)⋅P(Yes)+P(X|No)⋅P(No)=0.0370.111+0.037=25%
因为
P(Yes|X)>P(No|X)
所以
分类结果为
Yes