致 DM & ML :概率论先导知识

绪论

统计学是一门收集与分析数据,并且根据数据进行推断的艺术与科学。

—— 《大英百科全书》

声明

受众

想要快速上手概率论与数理统计相关基础概念的 DM / ML 方向的 CS 专业的同学们。

专栏涉及的内容

关于概率论与数理统计的部分大概分为五章,主要是笔者的听课笔记。准备留几个月时间填坑:

  1. 概率论基本的重要定义,重要定理,常用分布等 ( 本篇,约 16000 字 )。
  2. 参数估计:由样本推测总体的信息。
  3. 假设检验:根据观察到的结果做出决策。
  4. ( 一元的) 方差分析和回归分析:检验变量之间的效应关系,比如验证 x 可否作为影响 y 的自变量,以及验证存在 y = β0+β1x 这样的线性关系。
  5. 后续 DM 学习过程中可能遇到的统计学知识,如马尔可夫链等。

所有的内容以简单,实用,连贯,理解概念为主,因此不会在此花大量篇幅阐述各种定理背后复杂的数学证明,另,本文不会事无巨细地覆盖概率论与数理统计的所有知识点,部分笔记中没提到的概念见教材。

专栏的参考资料

有很多,见每章的题注或者参考资料部分。参考教材包括:浙江大学 《概率论与数理统计》第四版,孙荣恒 《应用数理统计》第三版 ( 还有我老师的课件 )。

哲学开篇:上帝掷骰子吗?

见: 物理四神兽——拉普拉斯的妖 - 知乎 (zhihu.com)

拉普拉斯 ( Pierre-Simon Laplace ),著名的法国分析学家,概率论学家和物理学家,1812 年发表重要的《概率分析理论》一书,在该书中总结了当时整个概率论的研究,论述了概率在选举审判调查、气象等方面的应用。

laplace.jpg

戏剧的是,拉普拉斯身为著名的概率论学家,却是一个忠实的 决定论 支持者。其著名的 拉普拉斯妖 思想实验就是他在 1814 年提出的:

假设拉普拉斯妖是一位全知全能的智者,它可以掌握全宇宙中每一个粒子的位置和速度,那么仅需根据经典的牛顿定律,它可以预测出未来每一个时刻每一个粒子的状态,同时也可以推算出过去任意时刻的状态。这种决定论思想表明一切事物 ( 包括自诩 "拥有自由意志" 的人 ) 现在的状态完全由过去决定,同时又完全决定了将来。比如,拉普拉斯妖现在抛下了一颗骰子 ( 或者硬币 ),它知道骰子的质量分布、重力加速度、空气的组成和稀薄程度、骰子和地面的材料、力度等等因素对投骰子的影响,因此,骰子的点数对它而言并不是随机的,而是在考虑过种种因素之后计算出的确切结果。

当然,随着热力学以及量子力学的发展,其种种理论都在表明拉普拉斯妖在现实中并不存在 —— 热力学第二定律指出:万物都是趋向于混乱、无序的。读者可以去自行搜索:自由意志决定论

对于我们而言,想通过纯计算的方式来预测骰子点数是不可能的。首先我们几乎无法考虑到影响投骰子的所有可能因素,即便是花了九牛二虎之力做到这一点,这些因素实际上要么无法定量,要么测出的量在下一时刻就 "过时" 了;除此之外,测量误差本身也是无法消除的一个因素。综上,"测不准" 的原因可以大致归为三点:

  1. 大自然总是充满不确定性的:给定一个初值,观测的结果并不总是唯一。
  2. 大自然是混沌的,仅是初值的微小差异就能够带来结果的巨大偏差,参考蝴蝶效应。
  3. "掷骰子" 本身就是基于不知道初值的前提条件下进行的。

事实上,实际生活中大部分的问题,比如说,午餐吃什么?我们确实拿不出什么具体的公式来计算。那可否退而求其次去研究它的规律呢?于是概率论出现了:实验者仅需把自己关注或感兴趣的影响因素量化成参数,扔进概率模型的 "大熔炉" 中,以此得到 "稳定" 的结论。

对于一个具有随机性质的个体而言,我们讨论概率。但在宏观的尺度而言,我们将更注重于统计。因此本专栏会讨论 概率论数理统计 的重要知识及其应用。

p&s.png

数理统计归属于统计学,它所研究的数据恰恰是带有随机性的,随机性的研究又正好是概率论的一大核心,这就不可避免的将两者联系到一块。概率论及其数理统计 使得人们可以在没有先验知识或不去探知事物繁杂的内在联系和规律的条件下,仅凭借宏观,庞大的数据就能合理地进行推断

一、概率论基础

概率空间

本章的主要参考内容有:

概率空间概念 - 百度文库 (baidu.com)

概率空间 - 知乎 (zhihu.com)

怎样理解概率空间这个概念和概率空间的三要素(Ω,F,P)? - 知乎 (zhihu.com)

请问σ-代数(sigma-algebra)的含义是什么,能否举例说明? - 知乎 (zhihu.com)

我们讨论的概率都是基于 "事件" 进行的,因此首先讨论事件的概念。

事件

实验的所有可能结果 构成了一个样本空间 Ω \Omega 。比如一次性抛出三枚硬币,用 H (head) 表示正面,T (Tail) 表示反面,其样本空间的元素 ( 或称 样本点 )有 2 3 2^3 个,即 { H H H , H H T , , T T T } \{HHH,HHT,\dots,TTT\}

人们关注的通常是 满足某些条件的样本点,如所有 "一枚硬币正面朝上" 的结果。这需要从 Ω \Omega 空间中分离出那一小部分样本点成为 Ω \Omega 的一个子集: { H T T , T H T , T T H } \{HTT,THT,TTH\} 。这里用符号 A 1 A_1 标记,来表示为一个事件每一个事件都是样本空间的一个子集,再通俗地说,事件是一个 "包含了部分可能结果的" 集合。如果事件表示的集合内只包含一个样本点,那么称之基本事件,如 { H T T } , { T H T } , \{HTT\},\{THT\},\dots

现实问题多用事件的组合来表示,比如求 "至少一枚硬币正面朝上" 的概率。这个表述其实同时包含了三种情况:

  1. 只有一个硬币在上, A 1 = { H T T , T H T , T T H } A_1=\{HTT,THT,TTH\}
  2. 有两个硬币在上, A 2 = { T H H , H T H , H H T } A_2=\{THH,HTH,HHT\}
  3. 所有硬币全在上, A 3 = { H H H } A_3=\{HHH\}

现在需要引入集合运算来表示事件之间的组合关系。最常使用的是交,并运算,它们表达了两个基本逻辑:多个事件 "同时发生" ( 串联 ),或者 "至少有一件发生" ( 并联 )。上述问题的符号化表示为 A 1 A 2 A 3 A_1\cup A_2 \cup A_3

根据研究的问题和目的,我们有必要构造出这样一个封闭集合 F \mathcal{F} ,它自身是 Ω \Omega 幂集的子集,称 F \mathcal{F} Ω \Omega 的事件域。它应当满足:

  1. Ω F \Omega \in \mathcal{F}
  2. 若事件 A F A \in \mathcal{F} ,则 A F \overline A \in \mathcal{F} 也同样成立 。结合第一条,易得 F \varnothing \in \mathcal{F}
  3. 若事件 A i F , i = 1 , 2 , . . . A_i\in \mathcal{F},i=1,2,... ,则 i = 1 A i F \bigcup^{\infin}_{i=1}A_i \in \mathcal{F} 也同样成立。

有关于幂集,封闭,可参考离散数学的相关概念。

F \mathcal{F} Ω \Omega 的一个 σ \sigma 代数。这种约束的意义是保证了在 F \mathcal{F} 内的子集 ( 事件 ) 之间不管如何做交差并补,随便做可列次计算,结果还在 F {\mathcal{F}} 里面。即:保证我们研究的概率问题本身不会超出可测量的范畴。最小 σ 代数是 { , Ω } \{\varnothing,\Omega\} ;相对的,最大的 σ 代数是样本空间 Ω \Omega 的完整幂集:它是 2 8 1 2^8-1 个基本事件 ω \omega 自由组合成的全体子集以及一个单独的 \varnothing 构成的集合。

当实验只关注某一个事件 ( 比如说 A 1 A_1 事件 ) 是否发生时,这仅有两种可能性,此时事件域可以是: F 1 = { , A 1 , A 1 , Ω } \mathcal{F_1}=\{\varnothing,A_1,\overline{A}_1,\Omega\} ,称 F 1 \mathcal{F_1} 是由 A 1 A_1 生成的最简单 σ \sigma 代数。注意,即使是对同一个研究对象的同一个实验,实验的目的不同,那么样本空间和 σ \sigma 代数的结构都会不同。

二元组 ( Ω , F \Omega,\mathcal{F} ) 称可测空间,它还具备如下性质:

  1. 对可列交运算封闭: i = 1 A i F \bigcap^{\infin}_{i=1}A_i \in \mathcal{F} 。( 易得 F \mathcal{F} 对有限的交,并计算都封闭 )
  2. 对差运算封闭,若 A F , B F A \in \mathcal{F},B \in \mathcal{F} ,则 A B F A-B \in \mathcal{F} ( A B = A B A-B=A\cap \overline{B} )。

概率定义和性质 ( 重要 )

( Ω , F ) (\Omega,\mathcal{F}) 可测空间中,可继续延伸出概率的公理化定义,柯式公理体系是现代概率论的基石。对任意的 A F A \in \mathcal{F} ,定义在 F \mathcal{F} 上的实值集函数 P ( A ) P(A) ,满足:

  1. 非负性:即 0 P ( A ) 1 0≤ P(A)≤1

  2. 规范性: P ( Ω ) = 1 P(\Omega)=1

  3. 可列可加性:设 A i , A j ( i j ) A_i,A_j (i\neq j) 之间是不相容事件 ( 即两个事件不可能完全发生,比如硬币要么正,要么反 ), A i A j = A_i \cap A_j = \varnothing ,则:

    P i = 1 A i = i = 1 P ( A i ) P\lgroup \bigcup^{\infin}_{i=1}A_i \rgroup= \sum^{\infin}_{i=1}P(A_i)

通过可列可加性,我们可以将和事件的概率转换为各个子事件的概率之和。

简单来说,函数 P P 是将事件投射到 [ 0 , 1 ] [0,1] 区间的一个函数,这个函数就称之概率 ( 测度 )。投射的结果越靠近 0 一侧,则说明了该事件发生的可能性越低,反之亦然。三元组 ( Ω , F , P ) (\Omega,\mathcal{F},P) 组成了一个完整的概率空间。

引入随机变量

有些实验结果可以使用数字来表示 ( 比如抛骰子 ),有些则不能 ( 比如抛硬币 ) 。为了便于研究,我们建立了一个从样本空间到实值空间的单值映射,即: X : Ω R X:\Omega\to\R ,( 当然可以再抽象一点, X X 如果是 n 维随机向量,则记 X Ω R n X:\Omega\to\R^n )。对于样本空间的任意一个样本点 ω i \omega_i ,只对应到唯一的 X ( ω i ) X(\omega_i) 值,但多个 ω i \omega_i 可以通过 X X 映射到同一个值。

比如现在令 X X 表示 "硬币正面向上的数量",样本空间中有 ω 1 : T H T , ω 2 : H T T \omega_1:THT,\omega_2:HTT ,则 X ( ω 1 ) = X ( ω 2 ) = 1 X(\omega_1)=X(\omega_2)=1 ,均是 X = 1 X=1 的情形。这样在计算 P ( X = 1 ) P(X=1) 时,就必须将所有满足条件的样本点都考虑进去。

omega2x.png

"至少一枚硬币正面朝上的概率" 用事件集合的表示为: P ( A 1 A 2 A 3 ) P(A_1\cup A_2 \cup A_3) 。而现在我们可使用更精简地表述: P ( X 1 ) P(X\geq 1) 。同时可进一步推导出: P ( X 1 ) = P ( X = 1 ) + P ( X = 2 ) + P ( X = 3 ) P(X\geq1)=P(X=1)+P(X=2)+P(X=3)

但显然 X X 的输出是不确定的,因为作为它输入的样本点 ω i \omega_i 在被观测到之前就是不确定的。所以称 X X 是随机变量 ( Random Variable,后文有可能简称 r.v. ) 。可知,随机变量本质上是一个函数,但和普通函数有本质区别:它的输出是随机的。同样本文另作约定:已被观测而 "坍缩" 确定的 X X 使用小写字母 x x 来表示。

对于一些生活中的 "定性" 问题,我们可以建立 X : Ω N X:\Omega\to\N 的映射,举个例子:

X = { 0 ,午饭去食堂一楼 1 ,午饭去食堂二楼 2 ,午饭点外卖 X =\left\{ \begin{aligned} 0 & ,午饭去食堂一楼 \\ 1 & ,午饭去食堂二楼 \\ 2 & ,午饭点外卖 \end{aligned} \right.

其中 X { 0 , 1 , 2 } X \in \{0,1,2\} 。通过长期的实践,我们能通过统计频率的方式来描述出 "每一次选择去哪里吃饭的可能性":

P X ( x ) = { 1 4 x = 0 1 4 x = 1 1 2 x = 2 0 e l s e P_X(x) =\left\{ \begin{aligned} \frac{1}{4} & ,x = 0 \\ \frac{1}{4} & ,x = 1 \\ \frac{1}{2} & ,x = 2 \\ 0 & ,else \end{aligned} \right.

下面是时候讨论 "随机变量 X X 服从什么规律" 了。

基于随机变量的规律

根据研究问题的不同,随机变量本身可以是离散的,也可以是连续的。"观察骰子点数" 显然是前者。而连续的随机变量也很常见,比如灯泡的寿命,人的身高等等,因此,根据随机变量的类型,其归纳出的数学模型也有所区分。

对于连续型随机变量,可以定义其概率密度函数 ( probability density function,简称 p.d.f.,下同 ),记作 f X ( x ) f_X(x) 。对于离散型随机变量,则又可以定义概率质量函数 ( probability mass function,简称 p.m.f.,下同,通俗点说就是分段函数 ),记作 P X ( x ) P_X(x) ,它也能以表格形式绘制的 分布律 来表示。

前者可以积分,而后者可以累加 ( 包括使用级数,极限等技巧 )。无论是哪种方式都可计算出累积概率密度,或称分布函数 ( CDF,下同 ),通常用大写 F ( x ) F(x) 标记,分布函数表述了 X X 的取值为 x x 时的概率。

下面简要介绍本文中使用的 p.d.f. 以及 CDF 的一些常用性质:

  1. F ( x ) F(x) 表示 P ( X k ) P(X≤k) ( 即, X X k 的 "可能性",这一点很重要 )。
  2. a b f ( x ) d x = F ( b ) F ( a ) = P ( a x b ) \int_a^bf(x)\mathrm{d}x= F(b)-F(a)= P(a≤x≤b) 。对 f X ( x ) f_X(x) 的指定区间积分的结果表示 X X 的值落在此区间的概率。
  3. 对于 p.d.f. f X ( x ) f_X(x) 而言,在个别点的取值不会影响 F ( x ) F(x) ,因此我们通常不去纠结 "积分边界是开区间还是闭区间" 的问题。
  4. + f X ( x ) d x = 1 \int_{-\infin}^{+\infin}f_X(x)\mathrm{d}x=1 。( 满足概率的规范性,对于 p.m.f. 同理 ) 对于一些数学积分问题,如果某些函数形式上恰好是概率模型的某个 p.d.f.,那么可以利用这一条性质来简化计算。

X X 的 p.d.f. 或 p.m.f. 符合特定的形式时,我们称 " X X 服从某一个分布"。在统计中,直接讨论 CDF 的情况比较少见。比如下面给出了同一个 r.v. 的两种表述方式:

cdf&pdf.jpg

通过右侧 p.d.f. 的图像能很清楚的看出, X X 落在哪些 区间 的概率更大。因此在表示连续型随机变量的概率时倾向于使用 f X ( x ) f_X(x) 来表示。

概率论中的收敛

本小节的内容主要来自于:统计学最重要的2大定理与3种收敛的关系 - 知乎 (zhihu.com)

WLLN 与 SLLN 的区别,来自于:强大数定律和弱大数定律的本质区别? - 知乎 (zhihu.com)

随着实验次数的不断增加,随机变量 X X 会朝着什么趋势变化?这是我们关注的一个问题。下面从 "收敛" 的角度来简单介绍其数学背景。

数列收敛

首先,不妨构造一个函数 y = f ( x ) y=f(x) ,现取足够多的值 x 1 , x 2 , , x n x_1,x_2,\dots,x_n ,并通过映射得到 y 1 , y 2 , , y n y_1,y_2,\dots,y_n 。假设 f ( x ) f(x) 的极限存在且为 a 0 a_0 ,则意味着当 n n \to \infty 时,因变量 y n y_n 也会逐步逼近这个常数 a 0 a_0 。这是一个很简单的极限思想,称以 { y n } \{y_n\} 构造的数列收敛于 a 0 a_0

进一步推广到函数收敛的情形。现给定一组函数 f n f_n x 0 x_0 不变,如果存在 lim n f n ( x 0 ) = f 0 ( x 0 ) \lim_{n \rightarrow \infty} f_{n}(x_0)=f_{0}(x_0) ,那么则称 f n ( x ) f_n(x) 在某一 x 0 x_0 处收敛于 f 0 f_0 。再进一步,若 f n ( x ) f_n(x) 任意 x x 处都收敛于 f 0 f_0 ,则称由 f n f_n 构成的 { f n ( x ) } \{f_n(x)\} 数列 逐点收敛 f 0 f_0

我们可以把随机变量 X X 的一组样本 { X 1 , X 2 , , X n } \{X_1,X_2,\dots,X_n\} 也看作是一组数列 { X n } \{X_n\} ,显然,这是一个随机函数数列。在概率论中,"当 n n\to\infin 时, { X 1 , X 2 , , X n } \{X_1,X_2,\dots,X_n\} 收敛" 可以有多种表述方式。即,随着样本量的增加,可以有:

  1. X n X_n 趋于某个固定的值;
  2. X n X_n 与某个特定分布函数的 "距离" 逐渐趋于 0 ...
  3. ....

这里按照由 "松散" 到 "严格" 的顺序依次介绍三个主要的收敛方式,以及引申出的三大重要定理。

依分布收敛 → CLT

{ X n } \{X_n\} 是表示 { F n ( ) } \{F_n(·)\} 的分布函数序列, F 0 ( ) F_0(·) 是另一个分布函数。若在 F 0 ( x ) F_0(x) 的任意连续处,对于所有的 x X x \in \mathfrak{X} ,都存在:

lim n F n ( x ) = F 0 ( x ) \lim_{n \to \infin} F_n(x) = F_0(x)

则称 n n \to \infty 时, { X n } \{X_n\} 依分布收敛于 X 0 X_0 ,记作 X n d X 0 X_n \stackrel{d}\to X_0

clt.gif

由依分布收敛可以引出 中心极限定理 Central Limit Theorem ( 后文简称 CLT ):无论 r.v. 本身趋于何种分布,当 n n\to \infin 时, X ˉ \bar{X} 将近似地服从正态分布 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) ,其中, μ \mu X X 的数学期望,而 σ 2 \sigma^2 指的是方差 ( 详情见后文数字特征 ) 。

CLT 有一种特殊情形,即隶莫弗-拉普拉斯 ( De Moivre-Laplace ) 定理,设随机变量 η n \eta_n 服从参数为 n,p 的二项分布 B ( n , p ) B(n,p) ,那么对于任意 x x ,有

lim n P { η n n p n p ( 1 p ) x } = Φ ( x ) \lim_{n\to\infin}P\{\frac{\eta_n-np}{\sqrt{np(1-p)}}≤x\}=\Phi(x)

,其中 Φ ( x ) \Phi(x) 表示标准正态分布,它的值可以通过查询分位表得出。

依概率收敛 → WLLN

{ X n } \{X_n\} 是 r.v. 序列,如果对于任意的 ϵ \epsilon ,都存在:

lim n P ( X n X 0 ϵ ) = 0 \lim_{n\to\infin}P(|X_n-X_0|≥ \epsilon) = 0

,则称 X n X_n 依概率收敛于 X 0 X_0 ,记作 X n p X 0 X_n\stackrel{p}\to X_0

从直觉来理解这个式子,它表明随着序列次数的增加,r.v. 出现 "偏倚" 结果的可能性越来越小。

cinpro.jpg

诸多 "因先前经验而强化概率" 的例子都可以满足依概率收敛。比如:学生通过不断刷题的方式来提高自己的得分率,现记录每一道题的得分为 X i X_i ,满分 10 分。学生一开始的得分率虽然较低,但是随着经验的累积,可以合理地推断出,当 n 趋于足够大时,该生每题的得分率会逐步提高,并最终趋近于一个稳定水平 X 0 X_0

由依概率收敛可以引申出 辛钦弱大数定理 WLLN:设 { X n } \{X_n\} 序列之间的 i.i.d.r.v. 具有数学期望 E ( X ) = μ E(X)=\mu ,则序列 X n ˉ = 1 n i = 1 n X i \bar{X_n}= \frac{1}{n} \sum_{i=1}^{n}X_i 依概率收敛于 μ \mu 。它大致表达了这样一件事:样本数量越大:用平均值来估计总体平均值的做法就越靠谱

几乎处处收敛 → SLLN

当依概率收敛定义中的 ϵ \epsilon = 0 时,其定义为:

P ( lim n X n X 0 ) = 1 P(\lim_{n \to \infin}X_n \to X_0) = 1

其解释是:当 n n \to \infin 时,其 X n X_n 必定趋于 X 0 X_0 ,或者反过来说 X n X_n 不趋于 X n X_n 的可能性为 0,记作 X n a . s X 0 X_n\stackrel{a.s}\to X_0

ascon.jpg

生活中那些 "受客观物理规律影响,随着时间推移必定会发生" 的例子都是几乎处处收敛的:比如在室温环境下放置了一杯热牛奶,用 X n X_n 来表示 "第 n 分钟时该牛奶的温度"。如果用依概率收敛和几乎处处收敛分别解释这个现象,并做个对比 ( 这里不考虑测量错误 ):

  1. 依概率收敛的观点:随着时间推移,测得的牛奶温度明显高于或低于室温的可能性会越来越低。
  2. 几乎处处收敛的观点:等待牛奶充分的冷却后,在此之后不论后续如何测得牛奶的温度,测得的结果必定和室温几乎完全相等。

这个对比也体现出了几乎处处收敛要比依概率收敛要更加得严格

由几乎处处收敛可以引申出强大数定律,强大数定理是后于弱大数定理发现并得出的更进一步的结论。两个定理均要求是 i.i.d.r.v 序列,而强大数定理进一步强调了:给定一个任意小的精度 ϵ \epsilon ,随着 n n\to\infin ,其样本均值偏离 ( μ ± ϵ ) (\mu\pm\epsilon) 的概率将一定为 0。

从频率推断概率

根据辛钦大数定理可得到另一个重要推论,即 伯努利大数定理

f A f_A 是 n 次重复独立实验中事件 A 发生的次数, p p 是每次实验中事件 A 发生的概率,则对于任意正数 ϵ > 0 \epsilon >0 ,有:

lim n P { f A n p ϵ } = 1 \lim_{n \to \infin}P\{{|\frac{f_A}{n}-p|<\epsilon}\}=1

伯努利大数定理阐述了:在实际应用中,当实验次数很大时,可以用事件的频率代替事件的概率,因为当 n n\to\infin 时,频率 f A n \frac{f_A}{n} 与概率 p p 的偏差小于 ϵ \epsilon 是几乎必定要发生的。

比如,抛出 N 次骰子并记录每一次的点数,记作 { X 1 , X 2 , , X n } \{X_1,X_2,\dots,X_n\} 。记 ω 6 \omega_6 为事件 "骰子摇到 6",现求这个事件发生的概率,符号表达是 P ( X = 6 ) = p 0 P(X=6)=p_0 。根据古典概型的知识, p 0 p_0 的预期值应是 1/6。然而当 n 较小时,我们通过实验获取的频率并不总是 1/6 ( 有可能是 1/2 也有可能是 0 )。只有在 n 取较大值时,其频率逐步向 1/6 "靠拢"。

除此之外,人们在长期实践中得到了重要的实际推断原理:小概率事件在一次试验中几乎是不发生的。这个思想常用于后文的极大似然估计,假设检验。

随机变量的数字特征

假设已经获悉了一个 r.v X X 的分布规律 p.d.f. 或 p.m.f. 。在这个规律当中还可以窥得哪些数字特征,以便于我们利用样本去做统计推断或决策呢?

期望

最实用的指标就是 "期望",即 " X X 平均是多少"。假定某商家的促销策略如下:

pools.png

这里不妨将 X X 定义成:"消费者的抽奖收益",若想求这个收益的 "平均",一个朴素的想法是:只需要将每一项的奖金与其概率乘积,然后将这些项加和即可。即: 5000 × 0.01 + 1000 × 0.09 + 1 × 0.9 = 140.9 5000 \times 0.01 + 1000 \times 0.09 + 1 \times 0.9 = 140.9 ,记作 E ( X ) E(X) 。上述的表格可以看作是一个 p.m.f.。不难归纳出离散型随机变量的计算公式:

E ( X ) = i = 1 x k p k E(X)=\sum_{i=1}^{\infin}x_kp_k

理解上式后,再进一步运用极限的思想,可推理出连续型随机变量的期望计算公式:

E ( X ) = + x f X ( x ) d x E(X)=\int_{-\infin}^{+\infin}xf_X(x)\mathrm{d}x

对于 p.d.f. 的期望计算可进一步推广,设 g ( X ) g(X) 是关于随机变量 X X 的函数,则:

E ( g ( X ) ) = + g ( x ) f X ( x ) d x E(g(X))=\int_{-\infin}^{+\infin}g(x)f_X(x)\mathrm{d}x

尽管我们得出了 "参加的消费者平均获得 140.9 元奖金" 的结论 ( 这听着非常地诱人 ),但根据实际推断原理可知,绝大部分人实际的收益只有 1 元。

方差

我们意识到:只考虑 "均值" 而忽略不同样本之间的巨大偏差是不可取的。因此引入第二个指标,即 "偏差" 本身,更详细点就是评估随机变量 X X 距离期望 E ( X ) E(X) 的偏差程度。然而,偏差之间的正负抵消会导致信息丢失:比如 X + a X+a X a X-a 平均后恰好为 X X ,那么偏差 a |a| 就被忽略了。

为了避免这种情况,这里通过平方来保证偏差总是非负的,作类似处理的还有最小二乘法。因此在统计中 "偏差" 使用 方差 来描述,记作 D ( X ) D(X) 。根据随机变量是 "离散" 还是 "连续" 的,方差依照定义有两套计算公式:

D ( X ) = i = 1 [ x i E ( X ) ] 2 p k D ( X ) = + [ x E ( X ) ] 2 f X ( x ) d x D(X)=\sum_{i=1}^{\infin}[x_i-E(X)]^2p_k \\ D(X)=\int_{-\infin}^{+\infin}[x-E(X)]^2f_X(x)\mathrm{d}x

同时, D ( X ) D(X) 还有另一个计算公式:

D ( X ) = E { [ X E ( X ) ] 2 } = E ( X 2 ) [ E ( X ) ] 2 D(X)=E\{[X-E(X)]^2\}=E(X^2)-[E(X)]^2

它实际上是对方差的另一个表述,即: X X E ( X ) E(X) 的偏差平方的期望。不难推理出 D ( X ) + [ E ( X ) ] 2 = E ( X 2 ) D(X)+[E(X)]^2=E(X^2) 。为了避免混淆,有时 [ E ( X ) ] 2 [E(X)]^2 也写作: E 2 ( X ) E^2(X)

我们再回头讨论抽奖的例子:对于单个的消费者而言,样本空间 Ω = { 5000 , 1000 , 1 } \Omega=\{5000,1000,1\} ,根据公式,方差的值计算如下:

D ( X ) = ( 5000 140.9 ) 2 × 0.01 + ( 1000 140.9 ) 2 × 0.09 + ( 1 140.9 ) 2 × 0.9 D(X)=(5000-140.9)^2 \times 0.01 + (1000-140.9)^2 \times 0.09 + (1 - 140.9)^2 \times 0.9

显然计算出的方差是一个巨大的数值。这说明了:不同消费者的抽奖体验存在着巨大差异。所以,我们总希望方差越小越好。但另一方面,因为随机性的客观存在, D ( X ) D(X) 实际上不会为 0。

假定已知 r.v. X X 具有期望和方差: E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 ,有一种粗略估计 " X X 偏离 μ \mu 的程度" 的不等式:

P { X μ ϵ } σ 2 ϵ 2   o r   P { X μ < ϵ } 1 σ 2 ϵ 2 P\{|X-\mu|\geq\epsilon\}\leq\frac{\sigma^2}{\epsilon^2} \space or \space P\{|X-\mu|<\epsilon\}\geq1-\frac{\sigma^2}{\epsilon^2}

该不等式是 切比雪夫不等式,它适用于已知 ( 或估计出 ) E ( X ) E(X) D ( X ) D(X) 但是不知道总体分布的情况下 P { X μ < ϵ } P\{|X-\mu|<\epsilon\} 的界限。

协方差

协方差是对于两个 r.v. X X Y Y 而言的。在讨论协方差之前,首先引入相关系数 ρ X Y \rho_{XY} ( 其实完整的叫法应该是 "线性相关系数" ),它刻画出了两者线性相关的强弱程度

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

在计算 "相关性" 时,我们更关注分子部分的 C o v ( X , Y ) Cov(X,Y) ,它被称之为协方差,常用计算方式是:

C o v ( X , Y ) = E ( X Y ) E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y)

X , Y X,Y 为连续型随机变量时, E ( X Y ) E(XY) 的计算为二重积分:

+ + x y f ( x , y ) d x d y \int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}xyf(x,y)\mathrm{d}x\mathrm{d}y

可知 ρ X Y C o v ( X , Y ) \rho_{XY} \propto Cov(X,Y) 。因此,当 C o v ( X , Y ) = 0 Cov(X,Y)=0 时,称 X , Y X,Y 两者没有线性关系。但 "没有线性关系" 不意味着 "没有关系",因此 X , Y X,Y 不相关 ( 不线性相关 ) 显然不代表两者相互独立 ( 在概率论中,独立意味着 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) ,或证得 P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P(X=x,Y=y)=P(X=x)P(Y=y) )。但是其中一个特例是: X , Y X,Y 均服从正态分布的情况。

1 ρ X Y 1 -1\leq\rho_{XY}\leq1 。直观理解:如果 ρ X Y \rho_{XY} 小于 0 ,则说明两者是负相关,反之则称正相关。 ρ X Y = 1 |\rho_{XY}|=1 当且仅当这种情况下成立,存在常数 a , b a,b

P { Y = a + b X } = 1 P\{Y=a+bX\}=1

这是最理想的情况:如果 Y Y 可被 X X 完全确定,则 Y Y 本质上只是关于 X X 的一个普通变换 g ( X ) g(X) ,而不是随机变量,反之亦然。后面的线性回归部分会介绍如何根据已有的成对数据 ( x , y ) (x,y) 去拟合 y = β 0 + β 1 x y=\beta_0+\beta_1x 这条直线,以及评估这条直线拟合的优劣程度。

常用性质

下面有关期望,方差,协方差的性质常见于理论推导。

  1. E ( C ) = C E(C)=C C C 为常数。
  2. E ( C X ) = C E ( X ) E(CX)=CE(X) X X 是随机变量。
  3. X , Y X,Y 是两个随机变量,则 E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y)
  4. 仅当 X , Y X,Y 相互独立时, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y)
  5. D ( C ) = 0 D(C)=0
  6. D ( C X ) = C 2 D ( X ) D(CX)=C^2D(X) D ( X + C ) = D ( X ) D(X+C)=D(X)
  7. D ( X ± Y ) = D ( X ) + D ( Y ) ± C o v ( X , Y ) D(X\pm Y)=D(X)+D(Y)\pm Cov(X,Y) 。显然对于两个独立的随机变量, C o v ( X , Y ) = 0 Cov(X,Y)=0 D ( X ± Y ) = D ( X ) + D ( Y ) D(X\pm Y)=D(X)+D(Y)
  8. C o v ( X , Y ) = C o v ( Y , X ) C o v ( X , X ) = D ( X ) Cov(X,Y)=Cov(Y,X),Cov(X,X)=D(X)
  9. C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) 。此处的 a , b a,b 表示实数。可推广:设 η 1 , η 2 \eta_1,\eta_2 n n 维列向量,而 A , B A,B n n 维行向量, C o v ( A η 1 , B η 2 ) = A B C o v ( η 1 , η 2 ) Cov(A\eta_1,B\eta_2)=AB'Cov(\eta_1,\eta_2) B B' 表示转置。

由上述性质得到以下重要推理:设 X 1 , X 2 , , X n X_1,X_2,\dots,X_n 是自同一总体的一组样本,故 D ( X i ) = D ( X ) E ( X i ) = E ( X ) D(X_i)=D(X),E(X_i)=E(X)

  1. E ( X ˉ ) = E ( 1 n X i ) = 1 n E ( X i ) = 1 n n E ( X ) = E ( X ) E(\bar X)= E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum E(X_i)=\frac{1}{n} \cdot nE(X)=E(X)
  2. D ( X ˉ ) = D ( 1 n X i ) = 1 n 2 D ( X i ) = 1 n D ( X ) D(\bar X)=D(\frac{1}{n}\sum X_i) =\frac{1}{n^2}\sum D( X_i)=\frac{1}{n}D(X)
  3. E ( S 2 ) = D ( X ) E(S^2)=D(X)

其中,第三条推理较为特殊。这里的 S 2 S^2 表示样本方差,它的计算公式为:

1 n 1 i = 1 n ( X i X ˉ ) 2 \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2

很多人 ( 包括我 ) 都曾对样本方差的系数产生过疑问。故这里展开第三条推理的证明,这里展开了二次平方项:

E ( S 2 ) = 1 n 1 E [ i = 1 n ( X i X ˉ ) 2 ] = 1 n 1 E ( X 1 2 + X 2 2 + + X n 2 + n X ˉ 2 2 ( X 1 + X 2 + X n ) X ˉ ) 2 n X ˉ 2 = 1 n 1 E ( X 1 2 + X 2 2 + + X n 2 n X ˉ 2 ) = 1 n 1 E ( n X 2 n X ˉ 2 ) = n n 1 E ( X 2 X ˉ 2 ) \begin{aligned} E(S^2)&=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\bar X)^2] \\ &=\frac{1}{n-1}E(X_1^2+X_2^2+\dots+X_n^2+n\bar X^2-\underbrace{2(X_1+X_2+\dots X_n)\bar X)}_{2n \bar X^2} \\ &=\frac{1}{n-1}E(X_1^2+X_2^2+\dots+X_n^2-n\bar X^2) \\ &= \frac{1}{n-1}E(nX^2-n\bar X^2) \\ &=\frac{n}{n-1}E(X^2-\bar X^2) \\ \end{aligned}

E ( X 2 ) = D ( X ) + E 2 ( X ) = σ 2 + μ 2 E(X^2)=D(X)+E^2(X)=\sigma^2+\mu^2 E ( X ˉ 2 ) = D ( X ˉ ) + E 2 ( X ˉ ) = 1 n σ 2 + μ 2 E(\bar X^2)=D(\bar X)+E^2(\bar X)=\frac{1}{n}\sigma^2+\mu^2 E ( X i 2 ) = E ( X 2 ) E(X_i^2)=E(X^2) ,进而可得:

n n 1 ( σ 2 + μ 2 1 n σ 2 μ 2 ) = σ 2 \frac{n}{n-1}(\sigma^2+\mu^2-\frac{1}{n}\sigma^2-\mu^2)=\sigma^2

,得证。这说明:

在使用样本方差来估计总体方差的场合,如果系数采用 1 n \frac{1}{n} ,那么估计的结果和总体方差相比总是偏小的,因此系数选取 1 n 1 \frac{1}{n-1} 以进行修正。这段内容对应后文的抽样分布定理。

常用 p.d.f.

如无必要,勿增实体。

避重就轻,避繁逐简。

以简御繁,避虚就实。

​ —— 《奥卡姆剃刀 / 建模的艺术》

两点分布

两点分布是最朴素的概率试验,我们在此只讨论一个 A 事件在某一个时刻是否会发生,所以 X X 仅可能有两个值:0,1。

X = { 1 ,发生 0 ,不发生 X =\left\{ \begin{aligned} 1 & ,发生\\ 0 & ,不发生 \\ \end{aligned} \right.

显然 "发生" 与 "不发生" 两者互为对立事件,若设前者的概率为 p p ,则后者的概率为 1 p 1-p 。因此它的 p.m.f. 为:

P ( X = k ) = p k ( 1 p ) 1 k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},k=0,1

两点分布也称 0-1 分布。记作: X B ( 1 , p ) X \sim B(1,p)

二项分布

我们很容易将两点分布延展为二项分布。在两点分布中,定义事件发生的值为 1,因此在 n n 次独立随机试验中,这里的 X X 可表示 A 事件发生的次数。它的 p.m.f. 为:

P ( X = k ) = C n k p k ( 1 p ) n k P(X=k)=C^k_np^k(1-p)^{n-k}

这里的 C n k C^k_n 表示在 n n 次实验中,任选其中 k 次事件发生而与次序无关。二项分布记作: X B ( n , p ) X\sim B(n,p)

泊松分布

现在将二项分布实验的整体时间段 T T 也考虑进去。假定将 T T 等分成若干 m 个小段,并保证每一个时间片内 A 事件只发生一次。显然,根据上式可得出在 m 个时间片内 A 事件发生 k 次的概率:

P ( X = k ) = C m k p k ( 1 p ) n k P(X=k)=C^k_mp^k(1-p)^{n-k}

那么,如果将时间段 T T 无限细分,该时间段内事件 A 发生的概率可通过极限求出 ( 这又称之为 泊松定理 ):

P ( X = k ) = lim m C m k p k ( 1 p ) n k = λ k k ! e λ P(X=k)=\lim_{m \to \infin}C^k_mp^k(1-p)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}

根据第二类重要极限,

lim n ( 1 + 1 x ) x = e \lim_{n \to \infin}(1+\frac{1}{x})^x=e

我们引入了自然数 e e 。其中, λ = n p \lambda=np 。一般情况下,当 n 较大但 λ \lambda 较小时,二项分布可以使用泊松分布来近似计算,因为可省去计算 C n k C_n^k 的过程。泊松分布记作 X P ( λ ) X\sim P(\lambda) 。在 λ \lambda→\infin 的情况下,二项分布可近似看作正态分布 ( 隶莫弗-拉普拉斯定理,见后文的正态分布 )。

泊松过程

N ( t ) , t 0 N(t),t≥0 来表示在从开始到 t 时刻 ( 即 ( 0 , t ] (0,t] 区间 ),事件 A 发生的次数 { N ( t ) , t 0 } \{N(t),t≥0\} 是一个状态取非负整数,时间连续的随机过程。由定义可知,泊松过程是一个计数过程一切随时间推移而迟早会发生的事件流 都可以概括为泊松过程。比如:

  1. 在生产环境中,意外事故或者意外差错的产生;
  2. 客户某时某刻访问服务站。这是相当广泛的概念,比如:数据库随机访问某一块磁盘的数据,或者服务器随时接收并处理前端发送的请求。

N ( t 0 , t ) = N ( t ) N ( t 0 ) N(t_0,t) = N(t) - N(t_0) ,而 0 t 0 t 0≤t_0≤t ,它表示时间间隔为 ( t 0 , t ] (t_0,t] 内 A 事件发生的次数。将 "在 ( t 0 , t ] (t_0,t] 时间段内 A 事件发生了 k k 次" 也看作是一个事件,将它的概率记作是 P k ( t 0 , t ) P_k(t_0,t)

假设 N ( t ) N(t) 满足以下条件:

  1. 互不重叠的区间增量具有独立性 ,换句话说,这里考虑的是独立增量过程。举一个不大恰当的反例:计算机网络中常使用的 退避算法,失败次数越多,下一次重传等待时间就越长,显然这个区间增量是受人为控制的,因此重传事件的发生不是独立增量过程。
  2. 定义对于充分小的 Δ t \Delta t P 1 ( t 0 , t ) λ Δ t P_1(t_0,t) \approx \lambda \Delta t ( 忽略了 Δ t \Delta t 高阶无穷小 )。此处的 λ \lambda 表示抵达率,或者是强度,等于单位时间内事件 A 发生的次数 ( 比如调研某人去楼下超市购物的频率。通过观察他平均一天去三次,那么若 t t 的单位时间为一天,则 λ \lambda =3 )。
  3. 在充分小的 Δ t \Delta t 下,几乎不会重复发生多个 A 事件。
  4. N ( 0 ) = 0 N(0)=0

那么我们将这个计数过程视作强度为 λ \lambda 的泊松过程。A 事件发生的时刻 t 1 , t 2 , t_1,t_2,\dots 称强度为 λ \lambda 泊松流 ( 名词不一样,但都说的是同一个概念 )。一个重要结论是:

P k ( t 0 , t ) = [ λ ( t t 0 ) ] k k ! e λ ( t t 0 ) P_k(t_0,t)=\frac{[\lambda(t-t_0)]^k}{k!}e^{-\lambda(t-t_0)}

即在泊松过程的任意一段时间差 Δ t = t t 0 \Delta t = t-t_0 内,其事件 A 发生的次数满足参数为 λ Δ t \lambda \Delta t 或者 λ ( t t 0 ) \lambda(t-t_0) 的泊松分布。

在实际应用当中,我们更加关注的是 "事件 A 发生固定 n 次所需要经历的时间",将这个时间称之为等待时间 W n W_n ( Waiting time 的缩写 ),显然 W n = t n W_n=t_n 。它的分布函数 CDF 为:

F W n ( t ) = P { N ( t ) n } = k = n + e λ t ( λ t ) k k ! , t 0 F_{W_n}(t)=P\{N(t)≥n\}=\sum_{k=n}^{+\infin}e^{-\lambda t}\frac{(\lambda t)^k}{k!},t≥0

而如果将它对 t 求导,则可得 W n W_n 的 p.d.f. 为:

f W n ( t ) = d F w n ( t ) d t = { λ ( λ t ) n 1 ( n 1 ) ! e λ t , t > 0 0 , e l s e f_{W_n}(t)= \frac{dF_{w_n}(t)}{dt}=\left\{ \begin{aligned} \frac{\lambda(\lambda t)^{n-1}}{(n-1)!}e^{-\lambda t} &, t > 0\\ 0&,else \\ \end{aligned} \right.

由这个 p.d.f. 又引出了两个重要分布:指数分布和 Γ \Gamma 分布 ( 这两者本质上是一回事,前者是后者的特殊情况 ),显然两者都继承了泊松过程的一个重要前提 —— "无记忆性"。

指数分布

指数分布描述了 "在泊松流当中,事件 A 首次发生" 的概率。将 n = 1 n=1 代入到 f W n f_{W_{n}} ,前面的系数项被消去,可得到:

f W 1 ( t ) = { λ e λ t , t > 0 0 , e l s e \begin{aligned} f_{W_1}(t)= \left\{ \begin{aligned} \lambda e^{-\lambda t} &, t > 0\\ 0&,else \\ \end{aligned} \right. \end{aligned}

此为指数分布的 p.d.f.,记作 X E x p ( λ ) X\sim Exp(\lambda) E ( λ ) E(\lambda)

在指数分布中,教材中举得最多的例子就是灯泡的寿命,如果设事件 A 为 "灯丝熔断",那么只要该事件发生一次就意味着这个灯泡被消耗掉了。这里有一个理想条件:就是灯丝的材质总是稳定的 ( 或者在实验期间内可以看作是稳定的 ),它不会随着时间的推移而老化,以至于影响到灯泡寿命。比如:灯丝在前 2000 个小时烧断的概率和在后 2000 小时后烧断的概率相同。这样一来,灯泡何时会坏似乎就完全取决于 "外部故障" ( 如外部电压突然过载 ) 何时发生了。

因此,如果要考虑到内部损耗的因素,那么使用 韦布尔 ( Weibull ) 分布 更加合适,因为它可以解释随着时间推移事件发生概率逐步增加或减少的现象。指数分布也是韦布尔分布的一种特殊情况,即事件首次发生的概率在任何时间都恒等。此两种分布在可靠性理论和排队论中有广泛的应用。

Gamma ( Γ ) 分布

n 2 n≥2 的情况下, f W n f_{W_n} 的 p.d.f. ( 对上式稍微整理即可,这里略 ) 被称之为 Gamma 分布。记作 X Γ ( n , λ ) X\sim\Gamma(n,\lambda) 。指数分布是 Gamma 分布的一个特殊情况,它也可以记作 X Γ ( 1 , λ ) X\sim\Gamma(1,\lambda) 。Gamma 分布有几大重要特性:

  1. 伸缩性:设 X Γ ( n , λ ) X\sim\Gamma(n,\lambda) ,则作 k X Γ ( n , λ k ) kX\sim\Gamma(n,\frac{\lambda}{k})
  2. 可加性:设 X Γ ( m , λ ) Y Γ ( n , λ ) X\sim\Gamma(m,\lambda),Y\sim\Gamma(n,\lambda) ,则 X + Y Γ ( n + m , λ ) X+Y\sim\Gamma(n+m,\lambda) ,可推广到多个累加的情形。

Gamma 分布与众多分布都有说不清道不明的关系。与之相关的有 Chi-Square 卡方分布,Normal 正态分布,Beta 分布等。见 怎么来理解伽玛(gamma)分布? - 知乎 (zhihu.com)

正态分布

每个人都相信正态分布:实验工作者认为它是一个数学定理,数学研究者认为他是一个经验公式。

​ —— 加布里埃尔·李普曼

现要用有限的成本来统计某品牌元器件产品平均使用寿命 X ˉ \bar X ( 单位:kg ) 。有两种思路:

  1. 收集全部 N N 个产品,然后将所有产品的寿命加和平均。
  2. 根据相对少量的 n n 个样本求均值,然后评估总体情况。

显然,第一种实现方案并不现实。一方面,想要完全获取总体是不可能的;另一方面,考虑到电子元器件属于消耗品,在测试完使用寿命之后显然就不能再用了。

因此这里应当思考第二种方案,它的依据是前文提到的辛钦弱大数定理 WLLN ( 依概率收敛的表述 )。另一方面,开篇时提到的中心极限定理 CLT 还表明:当 n 足够大时,其样本的均值基本只会在总体均值 μ \mu 很小邻域内波动, 其波动的规律符合正态分布 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) ( 依分布收敛的表述 )。

正态分布及其后续推导出的标准正态分布,抽样分布在统计推断中占有重要地位,首先从一元正态分布开始介绍。

一元正态分布

正态分布本身阐述了这样一个特性:若 Y N ( μ , σ 2 ) Y\sim N(\mu,\sigma^2) ,则说明 Y Y 的取值大体上散布在值 μ \mu 的周围,并在 σ \sigma 水平下波动,其曲线被描述为 "钟形曲线",服从正态分布的随机变量称正态随机变量。正态分布在统计学中占有重要地位,下面分四点对其进行简单介绍。

性质

如果 X X 是一个正态随机变量,它有这样的特性:

  1. 它受非常多独立的因素影响
  2. 没有一个因素起决定性影响 ( 每一个因素对结果的影响都是微乎其微的 )。
  3. 这些因素施加的影响是加性的。
  4. 这些因素之间是相互独立的。

正态分布的英文名为 Normal Distribution ,其它地区称 "常态分布",这体现了正态分布是一个较常见的分布 ( 其它资料中也有 "高斯 Guess 分布" 的称呼 )。以一个班级学生的学习成绩为例子:大部分人的成绩在 "良好" 的区间,而较少的人会取得 "优秀","一般" 的成绩。可以这样说:正态分布是大量影响因素之间 "此消彼长" ,而导致 r.v. "殊途同归" 的结果

假如考试成绩仅和两个因素有关:听课时的专注程度和考期复习时的认真程度。有些人可能选择上课摸鱼而在考期爆肝 ( 比如我 ),而另一些人则选择上课认真听讲以减少考期时的压力。这两个因素的影响相互抵消之后,两批人最后的成绩差异将不太大。而那些时刻都在奋斗的人终归是少数,因此这决定了取得好成绩的总是一小批人。

设一个 r.v. X N ( μ 0 , σ 0 2 ) X\sim N(\mu_0,\sigma^2_0) ,有以下常用的性质:

  1. a X + b N ( a μ 0 + b , ( a σ 0 ) 2 ) aX+b\sim N(a\mu_0+b,(a\sigma_0)^2)
  2. 可加性:有另一个与 X X 独立 Y N ( μ 1 , σ 1 2 ) Y\sim N(\mu_1,\sigma^2_1) X ± Y N ( μ 0 ± μ 1 , σ 0 2 + σ 1 2 ) X\pm Y\sim N(\mu_0\pm\mu_1,\sigma^2_0+\sigma^2_1) 。根据这一条性质可以引申出任意个独立的正态随机变量之间线性组合的正态分布。
  3. X ˉ N ( μ 0 , σ 0 2 n ) \bar X\sim N(\mu_0,\frac{\sigma^2_0}{n})
  4. 特别的,只有对于正态随机变量 X , Y X,Y 而言,"两者独立" 和 " C o v ( X , Y ) = 0 Cov(X,Y)=0 " 等价。

注意,可加性不能用于非独立的正态随机变量的线性组合问题,但是可以通过构造多元正态分布来解决,见后文。

正态分布与二项分布

再回顾一下前文所提的 隶莫弗-拉普拉斯 定理:二项分布的极限情况会趋向于正态分布。一个著名的试验是高尔顿钉板:

normal.gif

假设小球每次碰钉而向左向右的概率各为 1 2 \frac{1}{2} ,设 X X 是小球在钉板充分碰撞之后下落的区间 ( 下标 0 开始 ),则 X B ( n 1 , 0.5 ) X\sim B(n-1,0.5) n 1 n-1 指忽略顶层的钉板层数,而 P ( X = k ) = C n 1 k 0. 5 n 1 k = 0 , 1 , 2 , P(X=k)= C^k_{n-1}0.5^{n-1},k=0,1,2,\dots 。可以用图来表示计算过程 ( 这里只演示了 3 层的情况 ):

trian.png

0. 5 n 1 0.5^{n-1} 是一个常数系数,显然 P ( X = k ) C n 1 k P(X=k)\propto C^k_{n-1} 。而根据排列组合 C 公式的另一性质: C n k = C n n k C^k_n=C^{n-k}_n , 不难推理出:位于钉板最中间的位置的小球数量总是最多的,而越到两侧概率越小。可见,高尔顿钉板和 杨辉三角 有异曲同工之妙。当钉板的层数理论上有无穷多时,大量小球的下落区间 X X 可近似看作为正态分布。

正态分布与 CLT

进一步,我们不妨用正态分布反过来理解 CLT:来自总体中的任意一组容量为 n 的样本均值近似以正态分布的形式散在其总体均值周围,n 越大,波动范围越小。显然,每次采集的样本数量 n n 越大,各种因素造成的误差就越能得以充分的 "正负抵消"。以开篇提到的统计某品牌元器件平均寿命的例子:假设充分取样并计算每一小批样本的平均寿命,其近似出的曲线如下:

normal.png

可知,曲线的波峰大致落在 X ˉ = 3000 \bar X=3000 上,以此可以得出结论: "该品牌电子元器件总体的平均寿命大约在 3000 小时左右" 。

社会实践多为偏态分布

在大部分社会实践中,其 "钟形曲线" 在会出现明显的偏斜:

normal.png

比如图片演示的是一个右偏态分布,指钟形曲线的 "尾巴" 向右偏,右偏分布也称之正偏分布。由于曲线的波峰靠左,意味着在 "小值区间做积分更容易取大值" ( 即正偏分布取小值的概率会更大 )。

可使用 "对数正态分布" 拟合右偏态分布。在对数正态分布中,各个因素施加的影响不是性的,而是性的 ( 见经济学中的乘数效应 )。数学中可以利用对数性质来将乘式变换为加式 ( 这个套路也用于极大似然估计 ),因而得名。

社会的财富分布近似服从对数正态分布,可以这样解释:越是家境优越的人,其见识更多,人脉更广,眼界更高,从而他的财富得以 "翻番" 的形式增长,而非 "稳定线性" 的增长,以至于最终获得远超于普通人的财富积累。

若横轴表示财富量 W ,则马斯克,比尔盖茨这类顶级富豪都汇集在曲线非常右侧的尾部区间,而大部分普通人都落在曲线 "波峰区间"。一个显而易见的结论是:世界上绝大部分财富被掌握在极少数人手中。这个结论可引发很多相关的有趣话题,比如 马太效应二八定律,其内核都是乘数效应带来的 "赢者通吃" 局面。本篇研究的主题仍然是正态分布,不研究偏态分布。

因此我的数理统计老师曾告诫过:考察一个公司的实际薪资水平,不能光看平均数,而要看中位数

标准正态分布 / 3σ 法则

假定已知 X N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) ,根据正态分布的性质,可以将其变换为: Z = X μ σ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) ,此时这个 Z Z 表示了 X X 的偏差程度。显然,最理想的情况是 Z = 0 Z=0 ,即 X X 本身没有发生偏差。而 1 表示 "偏离了一个 σ \sigma "。

标准正态分布 Φ ( a ) \Phi(a) 有函数表,它表示了一个 "标准正态随机变量 Z Z 取值小于等于 a 的可能性是多少"。当然,还可以利用这张表反过去查 " Z Z 取何值才可保证其概率至少为 α \alpha "。正因如此,我们在对一些正态分布问题进行数值分析时总会做一步标准化操作

结合函数表,标准正态分布的计算可归纳三条式子:

  1. P ( Z < a ) = P ( a < Z < a ) = 2 Φ ( a ) 1 P(|Z|<a)=P(-a<Z<a)=2\Phi(a)-1
  2. P ( Z > a ) = 1 P ( Z < a ) = 2 2 Φ ( a ) P(|Z|>a)=1-P(|Z|<a)=2-2\Phi(a)
  3. Φ ( a ) = 1 Φ ( a ) \Phi(-a)=1-\Phi(a)

由分布函数 CDF 的定义以及 Φ ( x ) \Phi(x) 函数表可以计算出以下结果。任意的 X N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) ,其值落入 ( x 1 , x 2 ] (x_1,x2] 区间的概率为:

P ( x 1 < X x 2 ) = P { x 1 μ σ < X μ σ x 2 μ σ } = Φ ( x 2 μ σ ) Φ ( x 1 μ σ ) \begin{aligned} P(x_1<X≤x_2)&=P\{\frac{x_1-\mu}{\sigma}<\frac{X-\mu}{\sigma}≤\frac{x_2-\mu}{\sigma}\} \\ &=\Phi(\frac{x_2-\mu}{\sigma}) - \Phi(\frac{x_1-\mu}{\sigma}) \end{aligned}

比如,已知 X N ( 1 , 4 ) X\sim N(1,4) ,则:

P ( 0 X 1.6 ) = Φ ( 1.6 1 2 ) Φ ( 0 1 2 ) = Φ ( 0.3 ) Φ ( 0.5 ) = Φ ( 0.3 ) [ 1 Φ ( 0.5 ) ] = 0.3094 P(0<X≤1.6)=\Phi(\frac{1.6-1}{2})-\Phi(\frac{0-1}{2})=\Phi(0.3)-\Phi(-0.5) = \Phi(0.3)-[1-\Phi(0.5)]=0.3094

为了发现规律,现在不妨为 x 1 , x 2 x_1,x_2 赋一些比较 "特殊" 的值:

P ( μ σ < X < μ + σ ) = Φ ( 1 ) Φ ( 1 ) = 2 Φ ( 1 ) 1 = 68.26 % P ( μ 2 σ < X < μ + 2 σ ) = 95.44 % P ( μ 3 σ < X < μ + 3 σ ) = 99.74 % P(\mu-\sigma<X<\mu+\sigma)=\Phi(1)-\Phi(-1)=2\Phi(1)-1=68.26\% \\ P(\mu-2\sigma<X<\mu+2\sigma)=95.44\% \\ P(\mu-3\sigma<X<\mu+3\sigma)=99.74\% \\

这三个式子表明,正态随机变量 X X 落在 ( μ 3 σ , μ + 3 σ ) (\mu-3\sigma,\mu+3\sigma) 内几乎是一个确定的事,即人们所说的 "3σ 法则"。

01normal.jpg

注:笔者在这里没有给出正态分布的 p.d.f.,因为除了理论推导的场合之外,正态随机变量的概率问题不太需要用积分的原始方式求解 ( 包括后续的经验分布也基本都是查表 )。任何一本概率论讲义的附录上都会带上标准正态分布的函数表 ( 包括后文提到的其它的分位数表 ),当然也包括其 p.d.f. 。

多元正态分布

一元正态分布可以通过 "升高维度" 的方式变换成多元正态分布。假定现有 i.i.d.r.v. X i N ( μ i , σ i 2 ) X_i\sim N(\mu_i,\sigma^2_i) ,那么:构造一个列向量 η = ( X 1 , X 2 , , X n ) \eta=(X_1,X_2,\dots,X_n)^\intercal ,则 η \eta 服从 n 元正态分布。其均 "值" μ \mu 变成了列向量: θ = ( μ 1 , μ 2 , , μ n ) \theta=(\mu_1,\mu_2,\dots,\mu_n)^\intercal ,方差则变成了协方差矩阵:

Σ = ( σ 1 2 0 0 0 σ 2 2 0 0 0 0 σ 1 2 ) \Sigma= \begin{pmatrix} \sigma^2_1 & 0 & \cdots &0 \\ 0 & \sigma^2_2 & \cdots &0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & 0 &\sigma^2_1 \\ \end{pmatrix}\quad

注, Σ \Sigma 的对角线位置表示了 X i X_i 的方差,而其它非对角线位置的 a i j a_{ij} 元素表示 X i X_i X j X_j 之间的协方差。显然,对于独立同分布的 X i X_i 而言,协方差均为 0,此时协方差矩阵呈 对角矩阵 的形式,通常用大写的 λ \lambda 符号 Λ \Lambda 表示。

记服从多元正态分布的 η N n ( θ , Σ ) \eta \sim N_n(\theta,\Sigma) 。有推论表明,即便是对于 n 个相关的正态随机变量而言,总会存在一个正交矩阵 T T ,使得变换 ξ = T ( η θ ) \xi=T'(\eta-\theta) ( 这里 T T' 也表示转置 ) 服从 N n ( 0 , Λ ) N_n(0,\Lambda) ,换句话说,在多元正态分布的领域内,可以通过正交变换将 "相关" 变为 "独立"。

另一个比较特殊的情况,若 σ 1 2 = σ 2 2 = = σ n 2 = σ 2 \sigma^2_1=\sigma^2_2=\dots=\sigma^2_n=\sigma^2 ,则可以将它从 Λ \Lambda 提取出来作为系数,此时 Λ = σ 2 I n \Lambda =\sigma^2 I_n I n I_n 表示 n 阶单位矩阵。

多元正态分布有以下重要推论:

  1. η N n ( θ , σ 2 I n ) \eta \sim N_n(\theta,\sigma^2I_n) T T 为 n 阶正交矩阵,则 ξ T ( η θ σ ) N n ( 0 , I n ) \xi\equiv T'(\frac{\eta-\theta}{\sigma}) \sim N_n(0,I_n) 。( 类似一元正态分布的标准化 )
  2. η N n ( θ , Σ ) \eta \sim N_n(\theta,\Sigma) ,其中 A A 是一个满秩 ( 化最简式没有全 0 行 ) 的 m × n m \times n 常数矩阵, a a 是一个 m m 维列向量,令 ξ = A η + a \xi=A\eta+a ,则 ξ N m ( A θ + a , A Σ A ) \xi \sim N_m(A\theta+a,A\Sigma A') 。( 可以利用这一条将 n 元正态分布转换为 m 元正态分布 )。

多元正态分布多用于理论推导。比如现有 X N ( μ 1 , σ 2 ) , Y N ( μ 2 , σ 2 ) X \sim N(\mu_1,\sigma^2),Y \sim N(\mu_2,\sigma^2) 。当探讨 a X + b Y aX+bY 的分布时,我们可以将它看作是两个向量乘积:

a X + b Y = ( a b ) ( X Y ) = A η aX+bY= \begin{pmatrix} a &b \end{pmatrix}\begin{pmatrix} X \\ Y \end{pmatrix}=A\eta

以此构造一个二元正态分布,设 θ = ( μ 1 , μ 2 ) , A = ( a , b ) \theta=(\mu_1,\mu_2)',A=(a,b) ,则

ξ = ( a b ) ( X Y ) N 2 ( A θ , σ 2 A I 2 A ) \xi= \begin{pmatrix} a & b \end{pmatrix} \begin{pmatrix} X \\ Y \end{pmatrix} \sim N_2(A\theta,\sigma^2A'I_2A)

根据推论第二条, A A 是一个 m × 1 m \times 1 行向量,那么最终计算的 ξ \xi 将再次回归到一元正态分布。而 ξ \xi 的方差将利用 正定二次型 ( 即 A Σ A A'\Sigma A ) 而非简单的相加来求解。正定二次型的理解可以参考:如何理解二次型?_马同学-CSDN博客_二次型函数

这种思路尤其适用 非独立的正态随机变量之间线性组合的情况。此时不妨先将其变换成多元正态分布,再通过矩阵计算的方式来求解。

抽样分布

样本是进行统计推断的依据,但在实际应用中,我们会针对不同问题构造其关于样本的函数,并利用这个函数进行统计推断。

这里引入一条定义:假设 X 1 , X 2 , , X n X_1,X_2,\dots,X_n 是来自总体 X X 的一个样本,而 g ( X 1 , X 2 , , X n ) g(X_1,X_2,\dots,X_n) 是关于它们的一个函数。该函数不包含任何未知参数,这样的函数称之统计量。由于其统计量的参数是随机变量,因此统计量本身也是一个随机变量。

统计量的本质是 "信息的压缩"。我们最常使用的统计量就是样本平均值 X ˉ = 1 n X i \bar X= \frac{1}{n}\sum X_i ,由它即可推断出总体的平均水平,因此就不再需要枚举 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 等原始的样本数据来评估了。其它常用的统计量还有:

样本方差

S 2 = 1 n 1 i = 1 n ( X i X ˉ ) 2 = 1 n 1 ( i = 1 n X i 2 n X ˉ 2 ) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2= \frac{1}{n-1}(\sum_{i=1}^{n}X_i^2-n\bar X^2)

前文数字特征——常用性质部分已经给出了 E ( S 2 ) = σ 2 E(S^2)=\sigma^2 的证明,因此这里不再解释 1 n 1 \frac{1}{n-1} 的出处。它的开根号形式 S S 样本标准差

样本 k 阶原点矩

A k = 1 n i = 1 n X i k , k = 1 , 2 , . . . A_k=\frac{1}{n}\sum^n_{i=1}X_i^k,k=1,2,...

样本 k 阶中心矩

B k = 1 n i = 1 n ( X i X ˉ ) k , k = 1 , 2 , . . . B_k=\frac{1}{n}\sum^{n}_{i=1}(X_i-\bar X)^k,k=1,2,...

原点矩用于参数估计——点估计中的矩估计。显然,样本均值相当于样本一阶原点矩,而样本方差与样本二阶中心矩相差了一个系数。

统计量的分布称之为抽样分布。下面介绍在数理统计中占据重要地位的三大抽样分布:卡方分布,t 分布,F 分布。它们均 "发源于" 标准正态分布。

卡方分布

假定被标准化后的 X X 服从 N ( 0 , 1 ) N(0,1) 标准正态分布,则可知 X X 现在表示当前样本和均值的 "偏差"。卡方分布描述的是 "偏差" 的分布。现有 X 1 , X 2 , X 3 , , X n X_1,X_2,X_3,\dots,X_n 均来自总体 N ( 0 , 1 ) N(0,1) 的样本,构造一个统计量 χ 2 = X 1 2 + X 2 2 + , + X n 2 \chi^2=X_1^2+X_2^2+\dots,+X^2_n :则称 χ 2 \chi^2 是服从自由度 n n 的卡方分布,记 χ 2 χ 2 ( n ) \chi^2\sim\chi^2(n)

前文曾提到过:Gamma 分布与卡方分布存在着联系。 χ 2 ( 1 ) \chi^2(1) 分布即为 Γ ( 1 2 , 1 2 ) \Gamma(\frac{1}{2},\frac{1}{2}) 分布。设 X i 2 χ 2 ( 1 ) X^2_i \sim \chi^2(1) ,则根据 Γ \Gamma 分布的可加性可知:

χ 2 = i = 1 n X i 2 Γ ( n 2 , 1 2 ) \chi^2=\sum^n_{i=1}X^2_i\sim\Gamma(\frac{n}{2},\frac{1}{2})

( 本文的 Gamma 分布记作 Γ ( α , λ ) \Gamma(\alpha,\lambda) ,其它资料中可能会令 β = 1 λ \beta =\frac{1}{\lambda} ,记 Γ ( α , β ) \Gamma(\alpha,\beta) ,比如这里按浙大教材的写法将是 Γ ( n 2 , 2 ) \Gamma(\frac{n}{2},2) 。)

另一方面,如果 X X 恰好服从指数分布 E ( λ ) E(\lambda) ,那么结合 Γ \Gamma 分布的伸缩性与可加性可变换得到: 2 λ n X ˉ χ 2 ( 2 n ) 2\lambda n \bar X \sim \chi^2(2n) 。显然,卡方分布也具备可加性:

χ 1 2 + χ 2 2 χ 2 ( n 1 + n 2 ) , χ 1 2 χ 2 ( n 1 ) , χ 2 2 χ 2 ( n 2 ) \chi^2_1+\chi^2_2 \sim \chi^2(n_1+n_2),\chi^2_1 \sim\chi^2(n_1),\chi^2_2 \sim \chi^2(n_2)

t 分布

X N ( 0 , 1 ) X \sim N(0,1) Y   χ 2 ( n ) Y~\sim \chi^2(n) ,且 X , Y X,Y 相互独立,那么构造

t = X Y / n t = \frac{X}{\sqrt{Y/n}}

,称它服从自由度为 n 的 t 分布。记作 t t ( n ) t \sim t(n) 。t 分布形态上和标准正态分布接近,均呈对称状。而具体到细节上:t 分布的波峰更矮,而尾部更高。

tdistribution.png

这意味着 t 分布对那些出现在 "尾部" 的数据更具包容性,因为根据 "3σ 法则",正态分布几乎是不允许样本出现在 ( μ ± 3 σ ) (\mu\pm3\sigma) 邻域之外的。所以对于一些小样本 ( n<30 ),使用 t 分布比正态分布效果更好。若 n 较大 ( > 45 左右 ),那么 t 分布和标准正态分布近似相同。

F 分布

U χ 2 ( n 1 ) V χ 2 ( n 2 ) U \sim \chi^2(n_1),V \sim \chi^2(n_2) 。且 U , V U,V 相互独立,则称随机变量

F = U / n 1 V / n 2 F=\frac{U/n_1}{V/n_2}

服从自由度为 ( n 1 , n 2 ) (n_1,n_2) 的 F 分布,记作 F F ( n 1 , n 2 ) F \sim F(n_1,n_2) 。显然,F 用于成对数据的比较检验上。

卡方分布,t 分布,F 分布均有分位数表 ( 不同的教材可能是上分数表,也可能是下分位数表 )。

正态总体样本的抽样分布定理

在 "随机变量的数字特征章节" 已证过:无论 X X 服从什么分布,设期望 E ( X ) = μ E(X)=\mu 和方差 D ( X ) = σ 2 D(X)=\sigma^2 ,总存在 E ( X ˉ ) = μ E(\bar X)=\mu D ( X ˉ ) = σ 2 / n D(\bar X)=\sigma^2/n 。进一步,如果已知 X N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) ,则根据正态分布可加性可推出 X ˉ   N ( μ , σ 2 / n ) \bar X ~ \sim N(\mu,\sigma^2/n) ( 不需要用 CLT 近似了 )。标准化后可得:

X ˉ μ σ / n N ( 0 , 1 ) (1) \frac{\bar X-\mu }{\sigma/\sqrt{n}} \sim N(0,1)\tag{1}

在小样本下,我们可以使用 S 2 S^2 近似代替 σ 2 \sigma^2 ,使用 t 分布近似代替标准正态分布,于是有了:

X ˉ μ S / n t ( n 1 ) (2) \frac{\bar X-\mu}{S/\sqrt{n}} \sim t(n-1)\tag{2}

样本方差和总体方差之间存在着这样的关系:

( n 1 ) S 2 σ 2 χ 2 ( n 1 ) (3) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\tag{3}

,并且可证 S 2 , X ˉ S^2,\bar X 相互独立。 ( 2 ) (2) 式实际上是根据 ( 1 ) , ( 3 ) (1),(3) 式组合得来的。

X 1 , X 2 , X n 1 X_1,X_2\dots,X_{n_1} Y 1 , Y 2 , , Y n 2 Y_1,Y_2,\dots,Y_{n_2} 来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma^2_1) N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma^2_2) 的样本,且两组样本之间相互独立。 X ˉ , Y ˉ \bar X,\bar Y 分别是这两组样本的均值, S 1 2 , S 2 2 S^2_1,S^2_2 分别是这两组样本的方差,有:

S 1 2 / S 2 2 σ 1 2 / σ 2 2 F ( n 1 1 , n 2 1 ) (4) \frac{S^2_1/S^2_2}{\sigma^2_1/\sigma^2_2} \sim F(n_1-1,n_2-1)\tag{4}

特别地,当 σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 时,存在:

( X ˉ Y ˉ ) ( μ 1 μ 2 ) S w 1 n 1 + 1 n 2 t ( n 1 + n 2 2 ) , S w 2 = ( n 1 1 ) S 1 2 + ( n 2 1 ) S 2 2 n 1 + n 2 2 (5) \frac{(\bar X-\bar Y)-(\mu_1-\mu_2)} {S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2),\tag{5}\\ S_w^2=\frac{(n_1-1)S^2_1+(n_2-1)S^2_2} {n_1+n_2-2}

参考文献

本篇的架构来源于: 数据挖掘中所需的概率论与数理统计知识

在连续随机变量中,概率密度函数(PDF)、概率分布函数、累积分布函数(CDF)之间的关系是什么? - 知乎 (zhihu.com)

自然界中有没有「真随机」过程?「真随机」有哪些? - 知乎 (zhihu.com)

理解:泊松分布+泊松过程 - 简书 (jianshu.com)

什么是正态分布?为何如此重要?终于有人讲明白了 - 云+社区 - 腾讯云 (tencent.com)

数据科学统计:什么是正态分布? - 知乎 (zhihu.com)

为什么「正态分布」在自然界中如此常见? - 知乎 (zhihu.com)

学生成绩必须要服从正态分布,这样对学生真的公平吗? - 知乎 (zhihu.com)

高尔顿钉板与二项分布 - 简书 (jianshu.com)

从数理统计到数据挖掘(33页)-原创力文档 (book118.com)

t分布, 卡方x分布,F分布 - Thinkando - 博客园 (cnblogs.com)

为什么熵值最大的分布状态是正态分布而不是均匀分布? - 知乎 (zhihu.com)

猜你喜欢

转载自juejin.im/post/7055257223294877703
dm
ML