贝叶斯分类器基本理解

基于贝叶斯分类器的分类问题主要是要求得:对于任一样本X,选择能够使得后验概率p(c/X)最大的类标记。一般,后验概率难以直接获得,可以通过条件概率的公式对后验概率进行一个转换:p(c/X)=\frac{p(c)p(X/c)}{p(X)},对于给定样本p(X)与类标记无关,因此只需要基于训练数据集估计p(c),p(X/c)。其中,p(c)是先验概率,p(X/c)是类条件概率。由于类条件概率涉及到多个属性的联合分布,难以从有限的训练样本中得到,故在朴素贝叶斯分类器中假设“各属性条件独立”,则p(X/c)=p(x1/c)p(x2/c)...p(xd/c)。到这里,可以得出,由最初的求max p(c/X)  转变为求max p(c)\prod_{i=1}^{d}p(xi/c), 故现在只需根据已有的数据集求出各类别p(Ck)的概率,以及相应类别Ck下的各属性的类条件概率函数p(xi/Ck), 在求类条件概率时,假设它们服从某一参数分布,例如常用的高斯分布,从而求出相应的参数,求出先验概率和类条件概率之后,对于任意给定的测试样本X, 都可以将其属性值带入p(c)\prod_{i=1}^{d}p(xi/c)

,比较在哪个类别下的概率最大,该样本X就属于哪一类。

猜你喜欢

转载自blog.csdn.net/qq_26492325/article/details/82561955