CRF修炼秘籍（三）概率基础篇（贝叶斯概率，最大似然函数）

在这一部分，我们做进入正题前的最后一步预备知识的准备，主要介绍一些关于概率的零散知识：

首先介绍这样的两个公式，我认为他们是所有概率的基础：

当X,Y独立的时候

3.1贝叶斯公式

谈到概率，有个绕不开的是贝叶斯概率公式（全概率公式）：

或许大家都懂，但是我还是想举一个例子，来辅助我自己更好的记忆，办公室分为老师和学生，概率是1:1，在周末老师来办公室的概率是0.2，学生来办公室的概率是0.6，那么假如周末办公室有一个人，这个人是老师或者学生的概率是？

假设W1老师，W2学生，X周末来办公室

则P（W）称为先验概率，P(W1)=0.5，P(W2)=0.5

类条件概率P（x/w）表示在某个条件下某件事发生的概率，这里比如当是老师的条件下，周末来办公室的概率，所以得到：

P（X|W1）=0.2 P（X|W2）=0.6

P(X)为来办公室的概率，又因为W1和W2相互独立，所以P（X）=P（X|W1）*P(W1)+P（X|W2）*P(W2)=0.4

所以最后由贝叶斯公式推出，这个概率又称为后验概率：

3.2最大似然函数

但是在现实生活中，我们并没有这个条件能够每次都获得类条件概率，这个元素与许多因素都有着千丝万缕的联系，所以就有人提出了将估计完全未知的P（x/w）转换为参数估计。

这里有一点需要注意的，要估计参数首先就要能够比较准确的估计出概率分布模型来，不然即使能够估计出参数来，也是不准确的。而极大似然估计就是一种常用的参数估计的方法。

极大似然估计有这样三个前提：1）样本量足够多。2）样本的分布要相互独立。3）样本要能够真确反应真实数据的分布

Demo：举一个例子来通俗易懂的给大家解释一下什么叫极大似然估计，两个箱子中各有百球，第一个箱子中由99个黑球以及一个白球，第二个箱子中由一个黑球和99个白球。这时候随机从一个箱子中取出一个球为黑球，问球取自哪个箱子。

这时候我们的第一个反应是，最像是从第一个箱子中取出来的，这个最像就是我们需要的最大似然的结果。

假设样本集为D={x1,x2,x3,.....,xn}

联合概率密度P(D|θ)就是相对于样本集的似然函数

我们要做的就是寻找一个θ，使得L（θ）的结果最大，那么这个θ就称为对应的最大似然估计量，它与样本D保持着同样的维数。

3.3最大似然函数求解

目标函数：

为了在计算中便于处理，定义了对数似然函数，则目标函数变为：

接下来的求解过程，分为θ为标量以及θ为向量两种。

当θ为标量时，极大似然估计量是下面微分方程的解：

当θ为向量时，首先设梯度算子为：

假如似然函数连续可导，则最大似然估计量就是如下方程的解：