在这一部分,我们做进入正题前的最后一步预备知识的准备,主要介绍一些关于概率的零散知识:
首先介绍这样的两个公式,我认为他们是所有概率的基础:
当X,Y独立的时候
3.1贝叶斯公式
谈到概率,有个绕不开的是贝叶斯概率公式(全概率公式):
或许大家都懂,但是我还是想举一个例子,来辅助我自己更好的记忆,办公室分为老师和学生,概率是1:1,在周末老师来办公室的概率是0.2,学生来办公室的概率是0.6,那么假如周末办公室有一个人,这个人是老师或者学生的概率是?
假设W1老师,W2学生,X周末来办公室
则P(W)称为先验概率,P(W1)=0.5,P(W2)=0.5
类条件概率P(x/w)表示在某个条件下某件事发生的概率,这里比如当是老师的条件下,周末来办公室的概率,所以得到:
P(X|W1)=0.2 P(X|W2)=0.6
P(X)为来办公室的概率,又因为W1和W2相互独立,所以P(X)=P(X|W1)*P(W1)+P(X|W2)*P(W2)=0.4
所以最后由贝叶斯公式推出,这个概率又称为后验概率:
3.2最大似然函数
但是在现实生活中,我们并没有这个条件能够每次都获得类条件概率,这个元素与许多因素都有着千丝万缕的联系,所以就有人提出了将估计完全未知的P(x/w)转换为参数估计。
这里有一点需要注意的,要估计参数首先就要能够比较准确的估计出概率分布模型来,不然即使能够估计出参数来,也是不准确的。而极大似然估计就是一种常用的参数估计的方法。
极大似然估计有这样三个前提:1)样本量足够多。2)样本的分布要相互独立。3)样本要能够真确反应真实数据的分布
Demo:举一个例子来通俗易懂的给大家解释一下什么叫极大似然估计,两个箱子中各有百球,第一个箱子中由99个黑球以及一个白球,第二个箱子中由一个黑球和99个白球。这时候随机从一个箱子中取出一个球为黑球,问球取自哪个箱子。
这时候我们的第一个反应是,最像是从第一个箱子中取出来的,这个最像就是我们需要的最大似然的结果。
假设样本集为D={x1,x2,x3,.....,xn}
联合概率密度P(D|θ)就是相对于样本集的似然函数
我们要做的就是寻找一个θ,使得L(θ)的结果最大,那么这个θ就称为对应的最大似然估计量,它与样本D保持着同样的维数。
3.3最大似然函数求解
目标函数:
为了在计算中便于处理,定义了对数似然函数,则目标函数变为:
接下来的求解过程,分为θ为标量以及θ为向量两种。
当θ为标量时,极大似然估计量是下面微分方程的解:
当θ为向量时,首先设梯度算子为:
假如似然函数连续可导,则最大似然估计量就是如下方程的解: