前言

正文

1.主观概率

2.贝叶斯定理

扫描二维码关注公众号，回复： 15222368 查看本文章

开往夏天的列车

前言

贝叶斯分类方法是统计学的分类方法,它利用概率统计知识预测给定元组属于特定类的概率。贝叶斯分类基于贝叶斯定理。最简单的贝叶斯分类算法称为朴素贝叶斯分类法。.

正文

1.主观概率

贝叶斯方法是一种研究不确定性的推理方法，不确定性常用贝叶斯概率表示，它是一种主观概率，是个人主观的估计，随个人的主观认识的变化而变化

对它的估计取决于先验知识的正确和后验知识的丰富和准确，因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化，基于后验知识的一种判断，取决于对各种信息的掌握

2.贝叶斯定理

1.基础知识

已知事件A发生的条件下，事件B发生的概率，叫做事件B在事件A发生下的条件概率，记为 P(B|A) ，其中 P(A) 叫做先验概率, P(B|A) 叫做后验概率，计算条件概率的公式为：

后然=似然*先验 /证据因子

条件概率公式通过变形得到乘法公式：

设A,B为两个随机事件，如果有 P(AB) = P(A)P(B)成立，则称事件A和B相互独立。此时有 P(A|B) = P(A) 成立。

疾病诊断示例

两个诊断(检查)结论：患者有癌症（+）；或者无癌症（-）

先验知识：所有人口中，患病率0.8%

有病患者确诊准确率98%，无病患者确诊准确率97%

P(cancer) = 0.008 P(!cancer) = 0.992

P(+|cancer) = 0.98 P(-|cancer) = 0.02

P(+|!cancer) = 0.03 P(-|!cancer) = 0.97

设 B1, B2,…, Bn 为互不相容事件，P(Bi)>0, i=1, 2,…, n，且 $eq?%5Cbigcup_%7Bi%3D1%7D%5E%7Bn%7DBi%3D%5COmega$ ,对任意的事件 $eq?A%5Csubset%20%5Cbigcup_%7Bi%3D1%7D%5E%7Bn%7DBi$ ,计算事件A概率的公式为：

设P(A) >0，则在事件A发生的条件下，事件Bi发生的概率为：

，称该公式为贝叶斯公式

2.贝叶斯决策准则

如果对于任意 i ≠ j，都有P(Ci|X) > P(Cj|X) 成立，则样本模式 X 被判定为类别 Ci

3.极大后验假设

根据贝叶斯公式可得到一种计算后验概率的方法：在一定假设的条件下，根据先验概率和统计样本数据得到的概率，可以得到后验概率。

令P(c)是假设c的先验概率，它表示c是正确假设的概率，P(X) 表示的是训练样本X的先验概率，P(X|c) 表示在假设c正确的条件下样本X发生或出现的概率，根据贝叶斯公式可以得到后验概率的计算公式：

p设C为类别集合也就是待选假设集合，在给定未知类别标号样本X时，通过计算找到可能性最大的假设c∈C，具有最大可能性的假设或类别被称为极大后验假设(maximum a posteriori)，记作：

4.例题

假设当天的天气情况：X = { Sunny, Hot, High, Weak }，判断今天是否可以打网球？

①统计个数

②计算先验概率

③计算后验概率（由于我们是判断当日是否出去打球，所以下面计算时，只计算上面一部分）

P(Yes | X) = P(Yes)*P(Sunny|Yes)*P(Hot|Yes)*P(High|Yes)P(Weak|Yes)

= 9/14 * 2/9 * 2/9 * 3/9 * 6/9 ≈ 0.0071

P(No | X) = P(No)*P(Sunny|No)*P(Hot|No)*P(High|No)P(Weak|No)

= 5/14 * 3/5 * 2/5 * 4/5 * 2/5 ≈ 0.0026

2.朴素贝叶斯分类模型

朴素贝叶斯分类模型：算法逻辑简单、运算速度快、分类耗时短、精度高

以属性的类条件独立性假设为前提，即在给定类别状态条件下，属性之间是相互独立的

朴素贝叶斯分类器的算法描述：

初始化：随机选择一个类别作为“先验概率”，通常设为0.5。这意味着在训练过程中，我们始终将样本分为两个类别：正例(或支持例，positive example)和负例(或拒绝例，negative example)。

计算后验概率：对于每个样本，我们需要计算其属于各个类别的后验概率。对于给定的样本，我们可以使用贝叶斯公式来计算其属于各个类别的后验概率：P(C|X) = (P(X|C) * P(C)) / P(X)；其中，P(C|X) 是样本 X 在类别 C 下的后验概率，P(X|C) 是类别 C 下样本为正例的似然度，P(C) 是类别 C 的先验概率，P(X) 是样本 X 的边际概率。

选择最优类别：根据所有样本的后验概率，选择具有最高概率的类别作为最终预测结果。

需要注意的是，朴素贝叶斯分类器假设特征之间相互独立。在实际应用中，这种假设可能并不总是成立，因此需要对模型进行调整以适应特定的数据分布。此外，朴素贝叶斯分类器在处理缺失值和噪声数据时可能表现不佳。

朴素贝叶斯分类器的结构示意图

朴素贝叶斯算法特点

优点

逻辑简单、易实现、分类过程中时间空间开销比较小；

算法比较稳定、具有比较好的健壮性

缺点

有属性间类条件独立的这个假定，而很多实际问题中这个独立性假设并不成立，导致分类效果下降。

3.贝叶斯信念网

贝叶斯信念网络，简称贝叶斯网络，用图形表示一组随机变量之间的概率关系

贝叶斯网络有两个主要成分：

一个有向无环图，表示变量之间的依赖关系

一个条件概率表，把各结点和它的直接父结点关联起来

在贝叶斯信念网中，每个结点还关联一个概率表。如果结点X没有父母结点，则表中只包含先验概率P(X)，如果结点X只有一个父母结点Y，则表中包含条件概率P(X|Y)，如果结点X有多个父母结点 { Y1, Y2,…, Yk} ，则表中包含条件概率 P(X|Y1, Y2,…, Yk)

贝叶斯网络的建模包括两个步骤

创建网络结构

预估每一个结点在概率表中的概率值

贝叶斯信念网特点

BBN提供了一种用图形模型来捕获特定领域的先验知识的方法；

网络结构确定，添加新变量就十分容易；

贝叶斯网络很适合处理不完整的数据；

对模型的过分拟合问题是非常鲁棒的。

数据挖掘(5.1)--贝叶斯分类

前言

正文

1.主观概率

2.贝叶斯定理

1.基础知识

2.贝叶斯决策准则

3.极大后验假设

4.例题

2.朴素贝叶斯分类模型

朴素贝叶斯分类器的算法描述：

朴素贝叶斯算法特点

3.贝叶斯信念网

贝叶斯网络的建模包括两个步骤

贝叶斯信念网特点

猜你喜欢