CRF修炼秘籍(三)概率基础篇(贝叶斯概率,最大似然函数)

在这一部分,我们做进入正题前的最后一步预备知识的准备,主要介绍一些关于概率的零散知识:

首先介绍这样的两个公式,我认为他们是所有概率的基础:

当X,Y独立的时候

3.1贝叶斯公式

谈到概率,有个绕不开的是贝叶斯概率公式(全概率公式):

或许大家都懂,但是我还是想举一个例子,来辅助我自己更好的记忆,办公室分为老师和学生,概率是1:1,在周末老师来办公室的概率是0.2,学生来办公室的概率是0.6,那么假如周末办公室有一个人,这个人是老师或者学生的概率是?

假设W1老师,W2学生,X周末来办公室

则P(W)称为先验概率,P(W1)=0.5,P(W2)=0.5

类条件概率P(x/w)表示在某个条件下某件事发生的概率,这里比如当是老师的条件下,周末来办公室的概率,所以得到:

P(X|W1)=0.2   P(X|W2)=0.6

P(X)为来办公室的概率,又因为W1和W2相互独立,所以P(X)=P(X|W1)*P(W1)+P(X|W2)*P(W2)=0.4

所以最后由贝叶斯公式推出,这个概率又称为后验概率:

3.2最大似然函数

但是在现实生活中,我们并没有这个条件能够每次都获得类条件概率,这个元素与许多因素都有着千丝万缕的联系,所以就有人提出了将估计完全未知的P(x/w)转换为参数估计。

这里有一点需要注意的,要估计参数首先就要能够比较准确的估计出概率分布模型来,不然即使能够估计出参数来,也是不准确的。而极大似然估计就是一种常用的参数估计的方法。

极大似然估计有这样三个前提:1)样本量足够多。2)样本的分布要相互独立。3)样本要能够真确反应真实数据的分布

Demo:举一个例子来通俗易懂的给大家解释一下什么叫极大似然估计,两个箱子中各有百球,第一个箱子中由99个黑球以及一个白球,第二个箱子中由一个黑球和99个白球。这时候随机从一个箱子中取出一个球为黑球,问球取自哪个箱子。

这时候我们的第一个反应是,最像是从第一个箱子中取出来的,这个最像就是我们需要的最大似然的结果。

假设样本集为D={x1,x2,x3,.....,xn}

联合概率密度P(D|θ)就是相对于样本集的似然函数

我们要做的就是寻找一个θ,使得L(θ)的结果最大,那么这个θ就称为对应的最大似然估计量,它与样本D保持着同样的维数。

3.3最大似然函数求解

目标函数:

为了在计算中便于处理,定义了对数似然函数,则目标函数变为:

接下来的求解过程,分为θ为标量以及θ为向量两种。

当θ为标量时,极大似然估计量是下面微分方程的解:

当θ为向量时,首先设梯度算子为:

假如似然函数连续可导,则最大似然估计量就是如下方程的解:

猜你喜欢

转载自blog.csdn.net/weixin_40955254/article/details/81156966