设计贝叶斯分类器的两种参数估计方法:最大似然估计和贝叶斯估计

根据前篇文章我们知道,贝叶斯分类器设计时,需要知道先验概率 和类概率密度函数 ,然后再按照最小错误率或者最小风险标准进行决策。

但是,在实际的工程应用中,类概率密度函数往往是未可知的。即使把类概率密度函数近似为正态分布函数,其分布的均值和方差也是未知的。

因此,我们需要从已知的有限的样本中,尽可能地估计出类条件概率密度函数的参数,来方便我们设计分类器。换句话说,我们直接从样本出发,已知类概率密度函数的形式,但是类条件概率密度函数的参数未知,依然能够设计出分类器。

根据待分类数据的随机性,可以将这种参数估计的方法分为两类,即最大似然估计和贝叶斯估计。后者认为,待估计参数是完全随机、测不准的。而前者认为参数是固定的。

 

最大似然估计

已知:

       样本集$D= \{ x_1,x_2,...,x_n \} $,且每类样本都是从类条件概率密度函数P(X|\omega_ic)的总体中独立抽取出来的。

求解目标:

      $\theta = arg max P(\theta|D) $

对目标进行简化:

P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} $

在最大似然估计中,认为θ 是确定的,即P(θ), 是一个常数。而P(D)是根据已有的数据得到,也是确定的。因此:

$\theta = arg max P(D|\theta) $

构造函数

$l(\theta)=P(D|\theta)=P(x_1,x_2,...,x_n|\theta)=\prod\limits_{i=1}^{n}P(x_i|\theta) $

$H(\theta)=ln(ln(l(\theta)))=ln \prod\limits_{i=1}^{n}P(x_i|\theta)=\sum\limits_{i=1}^{n}ln(P(x_i|\theta)) $

$\widehat{\theta}=argmaxl(\theta) $ 或者$\widehat{\theta}=argmaxH(\theta) $

 

贝叶斯估计与最大似然估计的不同之处在于,不认为θ是确定的常数,而认为θ是随机变量。

       这样一来

P(\theta|D)=\frac{P(D|\theta)P(\theta)}{\int_\theta P(D|\theta)P(\theta)d\theta}=\frac {\prod \limits_{i=1}^n P(x_i|\theta)P(\theta)}{\int_\theta\prod \limits_{i=1}^n P(x_i|\theta)P(\theta)d\theta}=\alpha\prod\limits_{i=1}^n P(x_i|\theta)P(\theta)

其中α 是无关量,则

$\widehat{\theta}=\int_\theta \theta P(\tehta|D)d\theta $

 

 

可以看出:

       最大似然估计和贝叶斯估计的不同之处在于:

        (1)前者认为待估参数是确定的。而后者认为待估参数是随机的。

        (2)有(1)造成了对目标进行简化时的不同,即对P(θ) 的处理方式不同。

        (3)对估计量 的计算方式不同。

 

猜你喜欢

转载自blog.csdn.net/weixin_39516246/article/details/82965475