似然函数 | 最大似然估计 | R代码

学贝叶斯方法时绕不过去的一个问题，现在系统地总结一下。

之前过于纠结字眼，似然和概率到底有什么区别？以及这一个奇妙的对等关系。

wiki：在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。

这里我们讨论的范围已经界定了，那就是在指定模型下（比如二项分布），我们观测数据和可能的模型参数之间的关系。

（传统的贝叶斯定理的适用范围很广，是高度的总结推广，在似然函数里就不要过于推广了）

似然函数在直觉上就很好理解了，L(θ|x)就是在给定模型下（这就是为什么贝叶斯是model specific的原因），在给定数据x时，不同模型参数θ出现的概率。

为什么 L(θ|x) = f(x|θ)？L(θ|x) 和 f(θ|x)有什么本质的区别？为什么f(x|θ) != f(θ|x)? 存在L(x|θ)吗？

在统计学中，“似然性”和“概率”（或然性）又有明确的区分：概率，用于在已知一些参数的情况下，预测接下来在观测上所得到的结果；似然性，则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值。在这种意义上，似然函数可以理解为条件概率的逆反。

举个明确的例子，假设我们的抛两次硬币，出现H的次数x服从binomial(2, p)的二项分布，又假设我们我们观测了一次发现x=2，那么p=0.5的概率有多大？（必须是区间，单点的概率是~0）

注：算了一半天对不上，才发现，贝叶斯定理和

f(x|θ)，按照定义就是当我们已知θ=p=0.5时，x=5出现的概率，根据二项分布；计算可得：f(x=2|θ=0.5) = 0.25

f(θ|x)，按照定义就是当我们已知x=2时，p=0.5出现的概率，此时的限定空间是x=5；计算可得：f(θ=0.5|x=2)

有两种可视化的方式：韦恩图和二维的density图。

L(θ|x)，按照定义就是给定数据x=5时，p=0.4~0.5出现的概率（显然不能这么定义，这就和f(θ|x)一模一样了）。

首先得把L(θ|x)写成关于θ的函数形式。

wiki案例：图2. 三次投掷中头两次正面朝上，第三次反面朝上时的似然函数。可以看到似然函数的积分并不等于1，需要关注的只是大小的相对变化.

事件之间的相互独立：在概率论里，说两个事件是独立的，直觉上是指一次实验中一事件的发生不会影响到另一事件发生的概率。例如，在一般情况下可以认为连续两次掷骰子得到的点数结果是相互独立的。类似地，两个随机变量是独立的，若其在一事件给定观测量的条件概率分布和另一事件没有被观测的概率分布是一样的。

概率定义：两个事件A和B是独立的当且仅当Pr(A ∩ B) = Pr(A)*Pr(B)

事件之间互斥：A和B之间不能同时发生。

概率定义：P(A+B)=P(A)+P(B)，或者P(AB) = 0.

韦恩图里的交集到底是什么？不管A和B是否独立，都不影响韦恩图的交集。有交集代表A和B不互斥。所以韦恩图是看不出来事件之间的关系的，只能判断是否互斥。

贝叶斯定理很健壮，当A和B相互独立时，也是成立的，此时的条件概率就没有意义了。互斥时也是成立的，只是等式为0.

条件概率是用于衡量事件之间相互关系的，当A和B事件之间不互斥也不相互独立，也就是某种程度的相互影响。

只怪当时学得太肤浅，不求甚解。。。