统计学习方法4 - 朴素贝叶斯法

  • 朴素贝叶斯:生成模型

  • 预测思路:给定输入,生成在该输入的情况下各类发生的概率,然后选择概率最大的类。

  • 具体:结合贝叶斯公式、独立同分布的假设和极大似然估计,运用训练数据。

  • 分类问题:从数学角度来说,分类问题可做如下定义:已知集合 C = y 1 , y 2 , . . . , y n C=y_{1},y_{2},...,y_{n} C=y1,y2,...,yn I = x 1 , x 2 , . . . , x n I=x_{1},x_{2},...,x_{n} I=x1,x2,...,xn,确定映射规则 y = f ( ) y=f() y=f(),使得任意 x i ∈ I x_{i}\in I xiI有且仅有一个 y i ∈ C y_{i}\in C yiC, 使得 y i ∈ f ( x i ) y_{i}\in f(x_{i}) yif(xi)成立
    其中 C C C叫做类别集合,其中每一个元素是一个类别,而 I I I叫做项集合(特征集合),其中每一个元素是一个待分类项, f f f叫做分类器。分类算法的任务就是构造分类器 f f f

  • 贝叶斯公式:
    在这里插入图片描述
    换个表达形式:
    在这里插入图片描述
    我们最终求的 p ( 类 别 ∣ 特 征 ) p(类别|特征) p()即可

  • 朴素贝叶斯分类的优缺点
    优点:

(1) 算法逻辑简单,易于实现

(2)分类过程中时空开销小

缺点:

理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

算法过程参考:
https://zhuanlan.zhihu.com/p/26262151

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_48760912/article/details/114698865