贝叶斯分类器——机器学习(西瓜书)读书笔记

第七章 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论就是在概率框架下实施决策的基本方法。类比于最小二乘法。对于分类任务,在所有相关概率已知的情况下,贝叶斯决策轮考虑如何基于概率和误判损失来选择最优的类别标记。

对于有N种可能的标记类别的预测,是将一个真实标记为cj的样本误分类为ci样本所产生的损失,所以可以得到期望损失为(被分错损失的期望,也叫条件风险):

期望损失(条件风险)为:

我们希望得到一个分类方法(判定准则)h,使得这个判定准则对每一个样本,预测错的期望损失最小。那么这个h就叫做贝叶斯最优分类器 。这时总体的期望损失(风险)称为贝叶斯风险

当每种误判损失类似时,不妨设:此时条件风险就变成:,所以最优贝叶斯分类器为:,也即对于每个样本x,选择能使后验概率最大的类别标记。

两种策略获得

1.判别式模型,通过建模直接预测c。(决策树、BP神经网络、SVM等)

2.生成式模型,对联合概率分布建模,由此推出

7.2 生成式模型

考虑 (其中P(c)是先验概率,如果训练集包含足够的独立同分布的样本,可以频率作为概率;对于给定样本,P(x)可以忽略。)

对于公式中,最重要的就是条件概率。它的意义是在c类中样本的所有属性的联合概率,涉及到联合概率分布,无法通过由频率估计概率来估计。此时我们通过假设这个概率有某种特定的分布,通过参数估计确定分布情况,从而拿到此概率,而对于参数的估计有两种方法可以对此概率进行估计。

两种参数估计方法:

极大似然估计

频率主义学派认为参数是固定的,可以通过极大似然估计来估计得出。

优势:易计算

缺点:估计结果准确性严重依赖于我们假设的这个概率的分布(分布不对,结果可能极具误导性)。所以需要使用者拥有足够的经验知识来支撑假设。

贝叶斯估计

贝叶斯学派认为既然是假设的分布,那么参数也应该是个随机变量,因此可以先假定参数服从某个先验分布,再通过数据计算出后验分布。

7.3 朴素贝叶斯分类器

由于条件概率涉及属性的联合分布,那么朴素贝叶斯分类器添加了一个假设,“属性条件独立性假设”,使得每个属性独立的对分类器产生影响。所以我们可以吧公式改写一下:     (即在各个属性独立时改写条件联合概率

新的贝叶斯准则也可以改写为:

在有足够独立同分布的样本的情况下,先验概率可以写成: ,其中Dc是表示训练集D中第c类样本组成集合。(频率代替概率)

对于 来说,

当属性xi是离散值时,同样可以用频率估计概率:

但当属性是连续值时,还需假定概率密度函数是正态分布密度函数:,其中,而分别是第c类样本在第i个属性上取值的均值和方差。

修正:

有时存在原本属性的信息被训练集中未出现的属性值‘抹去’,即出现x3这个属性在c1类中没有出现,则条件概率=0的这种不正常的情况。这时我们引入“拉普拉斯修正”,则先验概率和条件概率修正为:

 

最后,通过对训练样本的计算,结果由贝叶斯准则判断,即可得到贝叶斯分类结果。

——————————————————————————————————————————————————————————————————————

注:现实中朴素贝叶斯分类器有多种使用方案:

1.若任务对预测速度要求高,则对给定的训练集,可以将朴素贝叶斯分类器涉及的所有概率估值先计算好,这样方便判别。

2.若任务数据更替频繁,可采用懒惰学习方法,只在收到预测请求时候才开始对训练集中数据进行概率估值。

3.若数据不断增加,可以在现有的基础上,对新增样本的属性进行概率估值修正,就可以实现增量学习

猜你喜欢

转载自www.cnblogs.com/jayechan/p/9547794.html
今日推荐