数据挖掘之朴素贝叶斯定理

做下记录总结:朴素贝叶斯,可能大家都忘了,但是稍微提一下,给个公司,或许你还会知道怎么求解。


朴素贝叶斯公式:

image.png

首先这个公式为什么叫朴素贝叶斯呢?他是英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中首次提出的这个定理。

image.png

首先我们了解下”条件概率”: 在事件B发生的情况下,事件A发生的概率,用P(A|B)表示

对条件概率进行变形:

“先验概率”:p(A),即在B事件发生之前,对A事件概率的一个判断
“后验概率”:p(A|B),即在B事件发生之后,对A事件概率的重新评估
“可能性函数”:P(B|A)/P(B),一个调整因子,使得预估概率更接近真实概率

所以:

image.png

举例:

两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

image.png

我们假定,H1表示一号碗H2表示二号碗。由于这两个碗是一样的,所以P(H1)=P(H2),也就是说,在取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率就叫做”先验概率”,即没有做实验之前,来自一号碗的概率是0.5

P(H1)=0.5
P(E|H1)=0.75

贝叶斯:P(H1|E)= P(E|H1)*P(H1) / P(E)
得出 P = 0.6

这个结果表明,来自一号碗的概率是0.6 也说明了下,取出水果糖之后,H1事件的可能性得到增强了

朴素贝叶斯定理的应用

对于下面的数据集,求x=(2,s)的类的标记

image.png

对于这个问题,也就是求解:
p( y= 1 | X = (2,s) )
p( y=-1 | X = (2,s) )
哪个概率值更大,就取哪一个。

两个公式展开,如下:

image.png

分母相同,比较分子大小
image.png

求解过程:
image.png

参考:
李航 《统计学习方法》
阮一峰的http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html

更多博客文章请访问主页:

https://blog.csdn.net/xudailong_blog

猜你喜欢

转载自blog.csdn.net/xudailong_blog/article/details/80589112