机器学习入门(朴素贝叶斯)

1. 应用场景

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法

贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记
朴素贝叶斯适用于独立同分布的分类
eg:假设白,黑两个颜色的球放在一个箱子里,那么黑白球就符合独立同分布

2. 贝叶斯公式原理(联合概率,条件概率,边缘概率)

eg:我们假设白色有12个,黑色有4个,现在有放回的从箱子里取出两个球,,设白球的概率为: p1, 黑球的概率为:p2,则:

联合概率:就是刚好一个白色一个黑色的概率:

条件概率:这里我们求两个球中已经有一个黑球的情况下,另一个球是白球的概率,则:

边缘概率:就是每一个事件的概率

三者的关系:

即:

3. 贝叶斯公式

由上面的公式我们可以得出以下公式:

对P(X,Y)=P(Y|X)P(X)进行代入:

实际场景中,P(X)是一个先验概率,就类似上面例子中的黑球或者白球的概率,而我们需要的是一个序,并不是实际的值,故排序中可以忽略掉先验概率,那么公式就可近似为:

4. 贝叶斯的优缺点

优点:

(1) 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化一下即可!)

(2)分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)

缺点:

理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好

发布了21 篇原创文章 · 获赞 28 · 访问量 3724

猜你喜欢

转载自blog.csdn.net/LPJCSY/article/details/102699836