C 概率评估
\qquad
在本附录中,我们简要回顾了概率论的一些基本概念,并将定义整个教材中使用的符号。
C.1 概率
概率空间由三部分组成:样本空间、事件集和概率分布:
样本空间
Ω
\Omega
Ω :
Ω
\Omega
Ω 是试验中可能发生的所有基本事件或结果的集合,例如当抛骰子时,所有可能出现在结果都在
(
1
,
…
,
6
)
\big(1,\dots,6)
( 1 , … , 6 ) 之间出现。
事件集合
F
\mathcal F
F :
F
\mathcal F
F 是一个
σ
\sigma
σ -代数,它是
Ω
\Omega
Ω 包含
Ω
\Omega
Ω 的子集的集合,它在互补和可数并(因此也有可数交集)下封闭。事件的一个例子可能是“骰子落在一个奇数上”。
概率分布 :
R
\mathbb R
R 是所有事件
F
\mathcal F
F 到[0,1]的映射,使得
P
\mathbb P
P [
Ω
\Omega
Ω ]=1,
P
\mathbb P
P [
ϕ
\phi
ϕ ]=1,并且,对于互斥事件
A
1
A_{_1}
A 1 ,
…
\dots
… ,
A
n
A_{_n}
A n ,
P
[
A
1
∪
⋯
∪
A
n
]
=
∑
i
=
1
n
P
[
A
i
]
\mathbb P[A_{1}\cup\dots\cup A_{n}]=\sum^{n}_{i=1}\mathbb P[A_{i}]
P [ A 1 ∪ ⋯ ∪ A n ] = i = 1 ∑ n P [ A i ]
\qquad
在均匀骰子的离散概率分布中可任意定义为
P
\mathbb P
P [
A
i
A_{_i}
A i ]=1/6对于i
∈
\in
∈ {1
…
\dots
… 6},其中
A
i
A_{_i}
A i 是骰子落在值i上的事件。
C.2 随机变量
定义c.1 (随机变量)随机变量
X
{X}
X 是一个可测度的函数:
Ω
\Omega
Ω
→
\rightarrow
→
R
\mathbb R
R ,即对于任意区间
I
{I}
I ,样本空间的子集{
ω
\omega
ω
∈
\in
∈
Ω
\Omega
Ω :X(
ω
\omega
ω )
∈
I
\in{I}
∈ I }是一个事件。
\qquad
离散随机变量
X
{X}
X 的概率质量函数定义为函数x
↦
\mapsto
↦
P
\mathbb P
P [
X
{X}
X =
x
{x}
x ]。定义为离散随机变量
X
{X}
X 和
Y
{Y}
Y 的联合概率质量函数为函数(
x
{x}
x ,
y
{y}
y )
↦
\mapsto
↦
P
\mathbb P
P [
X
{X}
X =
x
{x}
x
∧
Y
\land{Y}
∧ Y =
y
{y}
y ]
\qquad
概率分布是绝对连续的,当它包含一个概率密度函数时,这个函数
f
{f}
f 与一个实值随机变量
X
{X}
X 相关联,满足所有
a
{a}
a ,
b
{b}
b
∈
\in
∈
P
\mathbb P
P
P
[
a
≤
X
≤
b
]
=
∫
a
b
f
(
x
)
d
x
\mathbb P[{a}\leq{X}\leq{b}]=\int^b_af(x)dx
P [ a ≤ X ≤ b ] = ∫ a b f ( x ) d x
图C.1 二项分布(红色)近似为正态分布(蓝色)。定义C.2 (二项分布)假设一个随机变量
X
{X}
X 服从一个二项分布
B
{B}
B (
n
{n}
n ,
p
{p}
p ),
n
∈
N
{n}\in\mathbb N
n ∈ N ,
p
∈
{p}\in
p ∈ [0,1],如果对于任意
k
∈
{k}\in
k ∈ {1,
…
\dots
… ,
n
{n}
n },
P
[
X
=
k
]
=
(
k
n
)
p
k
(
1
−
p
)
n
−
k
\mathbb P[X=k]=(^n_k)p^k(1-p)^{n-k}
P [ X = k ] = ( k n ) p k ( 1 − p ) n − k
定义c.3 (正态分布)一个随机变量
X
{X}
X 被认为服从正态(或高斯)分布
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N ( μ , σ 2 ) ,
μ
∈
R
\mu\in\mathbb R
μ ∈ R ,
σ
>
0
\sigma>0
σ > 0 ,如果它的概率密度函数是:
f
(
x
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
\ f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})
f ( x ) = 2 π σ 2
1 exp ( − 2 σ 2 ( x − μ ) 2 )
标准正态分布
N
(
0
,
1
)
N(0,1)
N ( 0 , 1 ) 是具有零均值和单位方差的正态分布。正态分布经常用来近似二项分布。图
C
.
1
C.1
C . 1 说明了这个近似。定义c.4 (拉普拉斯分布)一个随机变量
X
X
X 被认为是遵循一个具有
μ
∈
R
\mu\in\mathbb R
μ ∈ R 和尺度参数
b
>
0
b>0
b > 0 的拉普拉斯分布,如果它的概率密度函数是:
f
(
x
)
=
1
2
b
exp
(
−
∣
x
−
μ
∣
b
)
\ f(x)=\frac{1}{2b}\exp(-\frac{\vert x-\mu\vert}{b})
f ( x ) = 2 b 1 exp ( − b ∣ x − μ ∣ )
定义c.5 (Gibbs分布)给定一个集合
X
X
X 和特征函数
Φ
:
X
→
R
N
\Phi:X\rightarrow\mathbb R^N
Φ : X → R N ,若对任意
x
∈
X
x\in X
x ∈ X ,
P
[
X
=
x
]
=
exp
(
ω
⋅
Φ
(
x
)
)
∑
x
∈
X
exp
(
ω
⋅
Φ
(
x
)
)
\mathbb P[X=x]=\frac{\exp(\omega\cdot\Phi(x))}{\sum_{x\in X}\exp(\omega\cdot\Phi(x))}
P [ X = x ] = ∑ x ∈ X exp ( ω ⋅ Φ ( x ) ) exp ( ω ⋅ Φ ( x ) )
则称随机变量
X
X
X 服从参数
ω
∈
R
N
\omega\in\mathbb R^N
ω ∈ R N 的Gibbs分布。分母
Z
=
∑
x
∈
X
exp
(
ω
⋅
Φ
(
x
)
)
Z=\sum_{x\in X}\exp(\omega\cdot\Phi(x))
Z = ∑ x ∈ X exp ( ω ⋅ Φ ( x ) ) 中的归一化量也称为配分函数。定义c.6 (泊松分布)对于任意
k
∈
N
k\in \mathbb N
k ∈ N
P
[
X
=
k
]
=
λ
k
e
−
λ
k
!
\mathbb P[X=k]=\frac{\lambda^ke^{-\lambda}}{k!}
P [ X = k ] = k ! λ k e − λ
称随机变量
X
X
X 遵循
λ
>
0
\lambda>0
λ > 0 的泊松分布!下列分布族的定义使用了下一节中定义的随机变量独立性的概念。定义c.7 (
X
2
−
平方分布
X^2-平方分布
X 2 − 平 方 分 布 )具有
k
k
k 自由度的
X
2
X^2
X 2 -分布(或卡方分布)是
k
k
k 个独立随机变量的平方和的分布,每个变量都服从变量正态分布。
C.3 条件概率和独立性
定义c.8 (条件概率)当
P
[
B
]
≠
0
\mathbb P[B]\neq0
P [ B ] = 0 时,给定事件
B
B
B 的条件概率定义为
P
[
A
∣
B
]
=
P
[
A
∩
B
]
P
[
B
]
\mathbb P[A\vert B]=\frac{\mathbb P[A\cap B]}{\mathbb P[B]}
P [ A ∣ B ] = P [ B ] P [ A ∩ B ]
定义c.9 (独立性)如果
P
[
A
∩
B
]
=
P
[
A
]
P
[
B
]
\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\mathbb P[A\cap B]=\mathbb P[A]\mathbb P[B]
P [ A ∩ B ] = P [ A ] P [ B ] 则两个事件
A
和
B
A和B
A 和 B 是独立的。等价的,当
P
≠
0
\mathbb P\neq0
P = 0 时,
A
和
B
A和B
A 和 B 是独立的,当且仅当
P
[
A
∣
B
]
=
P
[
A
]
\mathbb P[A\vert B]=\mathbb P[A]
P [ A ∣ B ] = P [ A ] 当随机变量相互独立并且服从相同的分布时,称一个随机变量序列为独立的同分布。
\qquad
以下是与条件概率概念有关的基本概念公式。他们为
A
、
B
和
A
1
,
…
,
A
n
A、B和A_{_1},\dots,A_{_n}
A 、 B 和 A 1 , … , A n 所举办的活动,用附加约束
P
[
B
]
≠
0
\mathbb P[B]\neq0
P [ B ] = 0 定义Bayes公式:
P
[
A
∪
B
]
=
P
[
A
]
+
P
[
B
]
−
P
[
A
∩
B
]
\qquad\qquad\qquad\qquad\mathbb P[A\cup B]=\mathbb P[A]+\mathbb P[B]-\mathbb P[A\cap B]
P [ A ∪ B ] = P [ A ] + P [ B ] − P [ A ∩ B ]
P
[
⋃
i
=
1
n
A
i
]
≤
∑
i
=
1
n
P
[
A
i
]
\mathbb P[\bigcup^{n}_{i=1}A_{i}]\le\sum^{n}_{i=1}\mathbb P[A_{i}]
P [ i = 1 ⋃ n A i ] ≤ i = 1 ∑ n P [ A i ]
P
[
A
∣
B
]
=
P
[
B
∣
A
]
P
[
A
]
P
[
B
]
\mathbb P[A\vert B]=\frac{\mathbb P[B\vert A]\mathbb P[A]}{\mathbb P[B]}
P [ A ∣ B ] = P [ B ] P [ B ∣ A ] P [ A ]
P
[
⋂
i
=
1
n
A
i
]
=
P
[
A
1
]
P
[
A
2
∣
A
1
]
…
P
[
A
n
∣
⋂
i
=
1
n
−
1
A
i
]
\mathbb P[\bigcap^n_{i=1}A_{i}]=\mathbb P[A_{1}]\mathbb P[A_{2}\vert A_{1}]\dots\mathbb P[A_{n}\vert\bigcap^{n-1}_{i=1}A_{i}]
P [ i = 1 ⋂ n A i ] = P [ A 1 ] P [ A 2 ∣ A 1 ] … P [ A n ∣ i = 1 ⋂ n − 1 A i ]
\qquad
和规则紧跟在不相交集
A
和
(
B
−
A
∩
B
)
A和(B-A\cap B)
A 和 ( B − A ∩ B ) 的并集
(
A
∪
B
)
(A\cup B)
( A ∪ B ) 的分解之后。联合约束是求和规则的直接结果。贝叶斯公式紧跟着条件概率的定义和观察结果:
P
[
A
∣
B
]
P
[
B
]
=
P
[
B
∣
A
]
P
[
A
]
=
P
[
A
∩
B
]
\mathbb P[A\vert B]\mathbb P[B]=\mathbb P[B\vert A]\mathbb P[A]=\mathbb P[A\cap B]
P [ A ∣ B ] P [ B ] = P [ B ∣ A ] P [ A ] = P [ A ∩ B ] 。同样,链式规则遵循观察
P
[
A
1
]
P
[
A
2
∣
A
1
]
=
P
[
A
1
]
∩
P
[
A
2
]
\mathbb P[A_{1}]\mathbb P[A_{2}\vert A_{1}]=\mathbb P[A_{1}]\cap\mathbb P[A_{2}]
P [ A 1 ] P [ A 2 ∣ A 1 ] = P [ A 1 ] ∩ P [ A 2 ] ;使用相同的参数递归地显示右边第一个
k
k
k 项的乘积等于
P
[
⋂
i
=
1
k
A
i
]
\mathbb P[\bigcap^{k}_{i=1}A_{i}]
P [ ⋂ i = 1 k A i ] .
\qquad
最后,假设
Ω
=
A
1
∪
A
2
∪
⋯
∪
A
n
\Omega=A_{1}\cup A_{2}\cup\dots\cup A_{n}
Ω = A 1 ∪ A 2 ∪ ⋯ ∪ A n ,
A
i
∩
A
j
=
ϕ
A_{i}\cap A_{j}=\phi
A i ∩ A j = ϕ ,
i
≠
j
,
i
.
e
i\neq j,i.e
i = j , i . e ,即
A
i
s
A_{i}s
A i s 是相互不相交的。那么,下面的公式对任何事件
B
B
B 都是有效的:
P
[
B
]
=
∑
i
=
1
n
P
[
B
∣
A
i
]
P
[
A
i
]
\mathbb P[B]=\sum^{n}_{i=1}\mathbb P[B\vert A_{i}]\mathbb P[A_{i}]
P [ B ] = i = 1 ∑ n P [ B ∣ A i ] P [ A i ]
根据条件概率的定义
P
[
B
∣
A
i
]
P
[
A
i
]
=
P
[
B
∩
A
i
]
\mathbb P[B\vert A_{i}]\mathbb P[A_{i}]=\mathbb P[B\cap A_{i}]
P [ B ∣ A i ] P [ A i ] = P [ B ∩ A i ] 以及
B
∩
A
i
B\cap A_{i}
B ∩ A i 相互不相交的事件。
C.4 期望和马尔可夫不等式
定义c.10 (期望值)一个随机变量
X
X
X 的期望值或平均值由
E
[
X
]
\mathbb E[X]
E [ X ] 表示,由
E
[
X
]
=
∑
x
x
P
[
X
=
x
]
\mathbb E[X]=\sum_{x}x\mathbb P[X=x]
E [ X ] = x ∑ x P [ X = x ]
当
X
X
X 遵循概率分布
D
\mathcal D
D 时,我们也用
E
x
∈
X
[
x
]
\mathbb E_{x\in\mathcal X}[x]
E x ∈ X [ x ] 来代替
E
[
X
]
\mathbb E[X]
E [ X ] 来明确表示分布。期望的一个基本性质,用它的定义可以直接证明,就是它是线性的,也就是说,对于任意两个随机变量
X
和
Y
X和Y
X 和 Y ,以及任意
a
,
b
∈
R
a,b\in\mathbb R
a , b ∈ R ,有以下几点:
E
[
a
X
+
b
X
]
=
a
E
[
X
]
+
b
E
[
Y
]
\qquad\qquad\qquad\qquad\mathbb E[aX+bX]=a\mathbb E[X]+b\mathbb E[Y]
E [ a X + b X ] = a E [ X ] + b E [ Y ] 此外,当
X
X
X 和
Y
Y
Y 是独立的随机变量时,下面的恒等式成立:
E
[
X
Y
]
=
E
[
X
]
E
[
Y
]
\qquad\qquad\qquad\qquad\mathbb E[XY]=\mathbb E[X]\mathbb E[Y]
E [ X Y ] = E [ X ] E [ Y ] 事实上,根据期望和独立的定义,我们可以写出
E
[
X
Y
]
=
∑
x
,
y
P
[
X
=
x
∧
Y
=
y
]
=
∑
x
,
y
x
y
P
[
X
=
x
]
P
[
Y
=
y
]
=
(
∑
x
x
P
[
X
=
x
]
)
(
∑
y
y
P
[
Y
=
y
]
)
,
\begin{aligned} \mathbb E[XY]=\sum_{x,y}\mathbb P[X=x\wedge Y=y]&=\sum_{x,y}xy\mathbb P[X=x]\mathbb P[Y=y]\\ &=(\sum_{x}x\mathbb P[X=x])(\sum_{y}y\mathbb P[Y=y]), \end{aligned}
E [ X Y ] = x , y ∑ P [ X = x ∧ Y = y ] = x , y ∑ x y P [ X = x ] P [ Y = y ] = ( x ∑ x P [ X = x ] ) ( y ∑ y P [ Y = y ] ) ,
在最后一步,我们使用了福比尼定理。下面给出了一个非负随机变量期望的简单界限,称为马尔可夫不等式。定理c.11 (马尔科夫不等式)设
X
X
X 是
E
[
X
]
<
∞
\mathbb E[X]<\infty
E [ X ] < ∞ 的非负随机变量,
t
>
0
t>0
t > 0 ,
P
[
X
≥
t
E
[
X
]
]
≤
1
t
.
\mathbb P[X\ge t\mathbb E[X]]\le\frac{1}{t}.
P [ X ≥ t E [ X ] ] ≤ t 1 .
证明: 证明步骤如下:
P
[
X
≥
t
E
[
X
]
]
=
∑
x
≥
t
E
[
X
]
P
[
X
=
x
]
≤
∑
x
≥
t
E
[
X
]
P
[
X
=
x
]
x
t
E
[
X
]
≤
∑
x
P
[
X
=
x
]
x
t
E
[
X
]
=
E
[
X
t
E
[
X
]
]
=
1
t
\begin{aligned} \mathbb P[X\ge t\mathbb E[X]]&=\sum_{x\ge t\mathbb E[X]}\mathbb P[X=x]\\ &\le\sum_{x\ge t\mathbb E[X]}\mathbb P[X=x]\frac{x}{t\mathbb E[X]}\\ &\le\sum_{x}\mathbb P[X=x]\frac{x}{t\mathbb E[X]}\\ &=\mathbb E[\frac{X}{t\mathbb E[X]}]=\frac{1}{t}\ \ \end{aligned}
P [ X ≥ t E [ X ] ] = x ≥ t E [ X ] ∑ P [ X = x ] ≤ x ≥ t E [ X ] ∑ P [ X = x ] t E [ X ] x ≤ x ∑ P [ X = x ] t E [ X ] x = E [ t E [ X ] X ] = t 1
证明到此为止。
C.5 方差与切比雪夫不等式
定义c.12 (方差-标准差)随机变量
X
X
X 的方差用
V
a
r
[
X
]
Var[X]
V a r [ X ] 表示,定义为
V
a
r
[
X
]
=
E
[
X
−
E
[
X
]
2
]
\qquad\qquad\qquad\qquad\qquad Var[X]=\mathbb E[X-\mathbb E[X]^{2}]
V a r [ X ] = E [ X − E [ X ] 2 ] 随机变量
X
X
X 的标准差由
σ
X
\sigma X
σ X 表示,定义为
σ
X
=
V
a
r
[
X
]
\qquad\qquad\qquad\qquad\qquad\sigma X=\sqrt{Var[X]}
σ X = V a r [ X ]
. 对于任意随机变量
X
X
X 和任意
a
∈
R
a\in\mathbb R
a ∈ R ,方差的下列基本性质可以直接证明:
V
a
r
[
X
]
=
E
[
X
2
]
−
E
[
X
]
2
\qquad\qquad\qquad\qquad\qquad Var[X]=\mathbb E[X^2]-\mathbb E[X]^2
V a r [ X ] = E [ X 2 ] − E [ X ] 2
V
a
r
[
a
X
]
=
a
2
V
a
r
[
X
]
\qquad\qquad\qquad\qquad\qquad\ Var[aX]=a^2Var[X]
V a r [ a X ] = a 2 V a r [ X ] 此外,当
X
和
Y
X和Y
X 和 Y 是独立的,那么
V
a
r
[
X
+
Y
]
=
V
a
r
[
X
]
+
V
a
r
[
Y
]
\qquad\qquad\qquad\qquad Var[X+Y]=Var[X]+Var[Y]
V a r [ X + Y ] = V a r [ X ] + V a r [ Y ] 实际上,使用线性期望和身份
E
[
X
]
E
[
Y
]
−
E
[
X
Y
]
=
0
\mathbb E[X]\mathbb E[Y]-\mathbb E[XY]=0
E [ X ] E [ Y ] − E [ X Y ] = 0 拥有独立的
X
和
Y
X和Y
X 和 Y ,我们可以写
V
a
r
[
X
+
Y
]
=
E
[
(
X
+
Y
)
2
]
−
E
[
X
+
Y
]
2
=
E
[
X
2
+
Y
2
+
2
X
Y
]
−
(
E
[
X
]
2
+
E
[
Y
]
2
+
2
E
[
X
Y
]
)
=
(
E
[
X
2
]
−
E
[
X
]
2
)
+
(
E
[
Y
2
]
−
E
[
Y
]
2
)
+
2
(
E
[
X
]
E
[
Y
]
−
E
[
X
Y
]
)
=
V
a
r
[
X
]
+
V
a
r
[
Y
]
\begin{aligned} Var[X+Y]&=\mathbb E[(X+Y)^2]-\mathbb E[X+Y]^2\\ &=\mathbb E[X^2+Y^2+2XY]-(\mathbb E[X]^2+\mathbb E[Y]^2+2\mathbb E[XY])\\ &=(\mathbb E[X^2]-\mathbb E[X]^2)+(\mathbb E[Y^2]-\mathbb E[Y]^2)+2(\mathbb E[X]\mathbb E[Y]-\mathbb E[XY])\\ &=Var[X]+Var[Y]\ \ \end{aligned}
V a r [ X + Y ] = E [ ( X + Y ) 2 ] − E [ X + Y ] 2 = E [ X 2 + Y 2 + 2 X Y ] − ( E [ X ] 2 + E [ Y ] 2 + 2 E [ X Y ] ) = ( E [ X 2 ] − E [ X ] 2 ) + ( E [ Y 2 ] − E [ Y ] 2 ) + 2 ( E [ X ] E [ Y ] − E [ X Y ] ) = V a r [ X ] + V a r [ Y ]
\qquad
下面的不等式被称为切比雪夫不等式,它界定了一个随机变量与其期望值之间的标准差。定理c.13 (切比雪夫不等式)设
X
X
X 是一个随机变量,具有
V
a
r
[
X
]
<
+
∞
Var[X]<+\infty
V a r [ X ] < + ∞ 。对于所有
t
>
0
t>0
t > 0 ,下列不等式成立:
P
[
∣
X
−
E
[
X
]
∣
≥
t
σ
X
]
≤
1
t
2
\mathbb P[\vert X-\mathbb E[X]\vert\ge t\sigma_X]\le\frac{1}{t^2}
P [ ∣ X − E [ X ] ∣ ≥ t σ X ] ≤ t 2 1
li证明: 观察:
P
[
∣
X
−
E
[
X
]
∣
≥
t
σ
X
]
=
P
[
X
−
E
[
X
]
2
≥
t
2
σ
X
2
]
\qquad\qquad\qquad\mathbb P[\vert X-\mathbb E[X]\vert\ge t\sigma_X]=\mathbb P[X-\mathbb E[X]^2\ge t^2\sigma^2_X]
P [ ∣ X − E [ X ] ∣ ≥ t σ X ] = P [ X − E [ X ] 2 ≥ t 2 σ X 2 ] 通过应用切比雪夫不等式得到
(
X
−
E
[
X
]
)
2
(X-\mathbb E[X])^2
( X − E [ X ] ) 2 。我们将用切比雪夫不等式来证明下面的定理。定理c.14 (弱大数定律)设
(
X
n
)
n
∈
N
(X_n)_{n\in\mathbb N}
( X n ) n ∈ N 是具有相同平均
μ
\mu
μ 和方差
σ
2
<
∞
\sigma^2<\infty
σ 2 < ∞ 的独立随机变量序列。 设
X
‾
n
=
1
n
∑
i
=
1
n
X
i
\overline{X}_n=\frac{1}{n}\sum^{n}_{i=1}X_i
X n = n 1 i = 1 ∑ n X i
则对于
ε
>
0
\varepsilon>0
ε > 0 ,
lim
n
→
∞
P
[
∣
X
‾
n
−
μ
∣
≥
ε
]
=
0
\lim_{n\rightarrow\infty}\mathbb P[\vert\overline X_n-\mu\vert\ge\varepsilon]=0
n → ∞ lim P [ ∣ X n − μ ∣ ≥ ε ] = 0
证明: 因为变量是独立的,我们可以写
V
a
r
[
X
‾
n
]
=
∑
i
=
1
n
V
a
r
[
X
i
n
]
=
n
σ
2
n
2
=
σ
2
n
Var[\overline X_n]=\sum^{n}_{i=1}Var\left[\frac{X_i}{n}\right]=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}
V a r [ X n ] = i = 1 ∑ n V a r [ n X i ] = n 2 n σ 2 = n σ 2
因此,通过切比雪夫不等式(
t
=
ε
/
(
V
a
r
[
X
‾
n
]
)
1
/
2
t=\varepsilon/(Var[\overline X_n])^{1/2}
t = ε / ( V a r [ X n ] ) 1 / 2 )得到如下结论:
P
[
∣
X
‾
n
−
μ
∣
≥
ε
]
≤
σ
2
n
ε
2
\mathbb P[\vert\overline X_n-\mu\vert\ge\varepsilon]\le\frac{\sigma^2}{n\varepsilon^2}
P [ ∣ X n − μ ∣ ≥ ε ] ≤ n ε 2 σ 2
暗示(c.19)例子c.15 (应用切比雪夫的不等式)假设我们掷一对公平骰子
n
n
n 次。我们能估计一下
n
n
n 卷的总价吗?如果我们计算均值和方差,我们发现
μ
=
7
n
,
σ
2
=
35
/
6
n
\mu=7n,\sigma^2=35/6n
μ = 7 n , σ 2 = 3 5 / 6 n (我们让读者去验证这些表达式)。因此,应用切比雪夫不等式,我们可以看到,在至少
99
99
9 9 %的所有实验中,最终和都在
7
n
+
10
35
6
n
7n+10\sqrt{\frac{35}{6}n}
7 n + 1 0 6 3 5 n
之内。因此,在100万次投掷之后,总和在
6.975
M
6.975M
6 . 9 7 5 M 到
7.025
M
7.025M
7 . 0 2 5 M 之间的概率比99:1要好。定义c.16 (协方差)两个随机变量
X
和
Y
X和Y
X 和 Y 的协方差用
C
o
v
(
X
,
Y
)
Cov(X,Y)
C o v ( X , Y ) 表示,定义为:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
]
\qquad\qquad\qquad\qquad\qquad Cov(X,Y)=\mathbb E[(X-\mathbb E[X])(Y-\mathbb E[Y])]
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] 当
C
o
v
(
X
,
Y
=
0
)
Cov(X,Y=0)
C o v ( X , Y = 0 ) 时,两个随机变量
X
和
Y
X和Y
X 和 Y 被认为是不相关的。很容易看出,如果两个随机变量
X
和
Y
X和Y
X 和 Y 是相互独立的,那么它们是不相关的,但是反之一般不成立。协方差定义了一个正的半定和对称双线性形式:
C
o
v
(
X
,
Y
)
=
C
o
v
(
Y
,
X
)
Cov(X,Y)=Cov(Y,X)
C o v ( X , Y ) = C o v ( Y , X ) 对任意两个随机变量
X
和
Y
X和Y
X 和 Y ;
独立性:
C
o
v
(
X
,
Y
)
=
C
o
v
(
Y
,
X
)
Cov(X,Y)=Cov(Y,X)
C o v ( X , Y ) = C o v ( Y , X ) 对任意两个随机变量
X
和
Y
X和Y
X 和 Y ;
双线性:
C
o
v
(
X
+
X
′
,
Y
)
=
C
o
v
(
X
,
Y
)
+
C
o
v
(
X
′
,
Y
)
,
C
o
v
(
a
X
,
Y
)
Cov(X+X^{\prime},Y)=Cov(X,Y)+Cov(X^{\prime},Y),Cov(aX,Y)
C o v ( X + X ′ , Y ) = C o v ( X , Y ) + C o v ( X ′ , Y ) , C o v ( a X , Y ) 对于任何随机变量
X
,
X
′
,
Y
以及
a
∈
R
X,X^{\prime},Y以及a\in\mathbb R
X , X ′ , Y 以 及 a ∈ R ;
正半有限度:
C
o
v
(
X
,
X
)
=
V
a
r
[
X
]
≥
0
Cov(X,X)=Var[X]\ge0
C o v ( X , X ) = V a r [ X ] ≥ 0 对任何随机变量
X
X
X 。下列柯西施瓦茨不等式适用于随机变量
X
和
Y
X和Y
X 和 Y ,
V
a
r
[
X
]
<
+
∞
,
V
a
r
[
Y
]
<
+
∞
Var[X]<+\infty,Var[Y]<+\infty
V a r [ X ] < + ∞ , V a r [ Y ] < + ∞ :
∣
C
o
v
(
X
,
Y
)
∣
≤
V
a
r
[
X
]
V
a
r
[
Y
]
\qquad\qquad\qquad\qquad\vert Cov(X,Y)\vert\le\sqrt{Var[X]Var[Y]}
∣ C o v ( X , Y ) ∣ ≤ V a r [ X ] V a r [ Y ]
. 下面的定义。定义c.17 随机变量向量
X
=
(
X
1
,
…
,
X
N
)
X=(X_1,\dots,X_N)
X = ( X 1 , … , X N ) 的协方差矩阵是
R
N
×
N
\mathbb R^{N\times N}
R N × N 中由
C
(
X
)
C(X)
C ( X ) 表示并被定义为:
C
(
X
)
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
T
]
\qquad\qquad\qquad\qquad C(X)=\mathbb E[(X-\mathbb E[X])(X-\mathbb E[X])^T]
C ( X ) = E [ ( X − E [ X ] ) ( X − E [ X ] ) T ] 因此,
C
(
X
)
=
(
C
o
v
(
X
i
,
X
i
)
)
i
j
C(X)=(Cov(X_i,X_i))_{ij}
C ( X ) = ( C o v ( X i , X i ) ) i j .这很容易证明
C
(
X
)
=
E
[
X
X
T
]
−
E
[
X
]
E
[
X
]
T
\qquad\qquad\qquad\qquad C(X)=\mathbb E[XX^T]-\mathbb E[X]\mathbb E[X]^T
C ( X ) = E [ X X T ] − E [ X ] E [ X ] T . 我们用下面著名的概率定理来结束这个附录。定理c.18 (中心极限定理)设
X
1
,
…
,
X
n
X_1,\dots,X_n
X 1 , … , X n 是一个具有平均
μ
\mu
μ 和标准差
σ
\sigma
σ 的
i
.
i
.
d
.
i.i.d.
i . i . d . 随机变量序列。设
X
‾
n
=
1
n
∑
i
=
1
n
X
i
,
σ
‾
2
=
σ
‾
2
/
n
\overline X_n=\frac{1}{n}\sum^{n}_{i=1}X_i,\overline\sigma^2=\overline\sigma^2/n
X n = n 1 ∑ i = 1 n X i , σ 2 = σ 2 / n .然后,
(
X
‾
n
−
μ
)
/
σ
‾
n
(\overline X_n-\mu)/\overline\sigma_n
( X n − μ ) / σ n 收敛于分布中的
N
(
0
,
1
)
N(0,1)
N ( 0 , 1 ) ,即对于任意
t
∈
R
t\in\mathbb R
t ∈ R ,
lim
n
→
∞
P
[
(
X
‾
n
−
μ
)
/
σ
‾
n
≤
t
]
=
∫
−
∞
t
1
2
π
e
−
x
2
2
d
x
\lim_{n\rightarrow\infty}\mathbb P[(\overline X_n-\mu)/\overline\sigma_n\le t]=\int^t_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx
n → ∞ lim P [ ( X n − μ ) / σ n ≤ t ] = ∫ − ∞ t 2 π
1 e − 2 x 2 d x
C.6 矩母函数期望值
E
[
X
p
]
\qquad\mathbb E[X^p]
E [ X p ] 称为随机变量
X
X
X 的矩阵。随机变量
X
X
X 的矩母函数是一个关键函数,它的不同矩可以通过在零点微分直接计算。因此,它对于指定
X
X
X 的分布或分析其性质是至关重要的。定义c.19 (动差生成函数)一个随机变量
X
X
X 的动差生成函数是在
t
∈
R
t\in\mathbb R
t ∈ R 的集合上定义的函数
M
X
:
t
→
E
[
e
t
X
]
M_X:t\rightarrow\mathbb E[e^{tX}]
M X : t → E [ e t X ] ,其期望是有限的。如果
M
X
M_X
M X 在零是可微的,则
X
X
X 的矩阵由
E
[
X
p
]
=
M
X
(
p
)
(
0
)
\mathbb E[X^p]=M^{(p)}_{X}(0)
E [ X p ] = M X ( p ) ( 0 ) 给出。我们将在下一章中给出一个关于零平均有界随机变量动差生成函数的一般界(引理 d. 1)。在这里,我们用两个特例来说明它的计算。例子c.20 (标准正态分布)设
X
X
X 是一个随机变量,服从均值为
0
0
0 ,方差为
1
1
1 的正态分布。然后,通过认识到最后一个积分是平均
t
t
t 和方差为
1
1
1 的正态分布的概率密度函数,定义了对于所有
t
∈
R
t\in\mathbb R
t ∈ R 的
M
X
M_X
M X 为
M
X
(
t
)
=
∫
−
∞
∞
1
2
π
e
−
x
2
2
e
t
x
d
x
=
e
t
2
2
∫
−
∞
∞
1
2
π
e
−
1
2
(
x
−
t
)
2
d
x
=
e
t
2
2
\ M_X(t)=\int^{\infty}_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}e^{tx}dx=e^{\frac{t^2}{2}}\int^{\infty}_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x-t)^2dx}=e^{\frac{t^2}{2}}
M X ( t ) = ∫ − ∞ ∞ 2 π
1 e − 2 x 2 e t x d x = e 2 t 2 ∫ − ∞ ∞ 2 π
1 e − 2 1 ( x − t ) 2 d x = e 2 t 2
例子c.21 (
X
2
X^2
X 2 -分布)设
X
X
X 是随机变量,服从
X
2
X^2
X 2 -平方分布,自由度为
k
k
k 。我们可以写
X
=
∑
i
=
1
k
X
i
2
X=\sum^{k}_{i=1}X^2_i
X = ∑ i = 1 k X i 2 其中
X
X
X 是独立的,并遵循标准的正态分布。让
t
<
1
/
2
t<1/2
t < 1 / 2 。根据
i
.
i
.
d
.
i.i.d.
i . i . d . 对变量
X
i
X_i
X i 的假设,我们可以写
E
[
e
t
X
]
=
E
[
∏
i
=
1
k
e
t
X
i
2
]
=
∏
i
=
1
k
E
[
e
t
X
i
2
]
=
E
[
e
t
X
i
2
]
k
.
\mathbb E[e^{tX}]=\mathbb E\left[\prod^{k}_{i=1}e^{tX^2_i}\right]=\prod^{k}_{i=1}\mathbb E[e^{tX^2_i}]=\mathbb E[e^{tX^2_i}]^k.
E [ e t X ] = E [ i = 1 ∏ k e t X i 2 ] = i = 1 ∏ k E [ e t X i 2 ] = E [ e t X i 2 ] k .
根据标准正态分布的定义,
E
[
e
t
X
1
2
]
=
1
2
π
∫
−
∞
+
∞
e
t
x
2
e
−
x
2
2
d
x
=
1
2
π
∫
−
∞
+
∞
e
(
1
−
2
t
)
−
x
2
2
d
x
=
1
2
π
∫
−
∞
+
∞
e
−
−
μ
2
2
1
−
2
t
d
u
=
(
1
−
2
t
)
−
1
2
,
\begin{aligned} \mathbb E[e^{tX^2_1}]&=\frac{1}{\sqrt{2\pi}}\int^{+\infty}_{-\infty}e^{tx^2}e^{\frac{-x^2}{2}}dx=\frac{1}{\sqrt{2\pi}}\int^{+\infty}_{-\infty}e^{(1-2t)\frac{-x^2}{2}}dx\\ &=\frac{1}{\sqrt{2\pi}}\int^{+\infty}_{-\infty}\frac{e^{-\frac{-\mu^2}{2}}}{\sqrt{1-2t}}du=(1-2t)^{-\frac{1}{2}}, \end{aligned}
E [ e t X 1 2 ] = 2 π
1 ∫ − ∞ + ∞ e t x 2 e 2 − x 2 d x = 2 π
1 ∫ − ∞ + ∞ e ( 1 − 2 t ) 2 − x 2 d x = 2 π
1 ∫ − ∞ + ∞ 1 − 2 t
e − 2 − μ 2 d u = ( 1 − 2 t ) − 2 1 ,
其中我们使用了
μ
=
1
−
2
t
x
.
\mu=\sqrt{1-2t}x.
μ = 1 − 2 t
x . 的变化,由此可见,
X
2
X^2
X 2 -分布的动差生成函数是
∀
<
1
/
2
,
M
X
(
t
)
=
E
[
e
t
X
]
=
(
1
−
2
t
)
−
k
2
\qquad\qquad\qquad\qquad\qquad\forall<1/2,M_X(t)=\mathbb E[e^{tX}]=(1-2t)^{-\frac{k}{2}}
∀ < 1 / 2 , M X ( t ) = E [ e t X ] = ( 1 − 2 t ) − 2 k
C.7 练习
c.1 设
f
:
(
0
,
+
∞
)
→
E
+
f:(0,+\infty)\rightarrow\mathbb E_+
f : ( 0 , + ∞ ) → E + 是一个允许
f
−
1
f^{-1}
f − 1 逆的函数,并设
X
X
X 是一个随机变量。表明,如果为任何
t
>
0
,
P
[
X
>
t
]
≤
f
(
t
)
t>0,\mathbb P[X>t]\le f(t)
t > 0 , P [ X > t ] ≤ f ( t ) ,则,对于任意
δ
>
0
\delta>0
δ > 0 ,概率至少
1
−
δ
,
X
≤
f
−
1
(
δ
)
1-\delta,X\le f^{-1}(\delta)
1 − δ , X ≤ f − 1 ( δ ) .c.2 设
X
X
X 是一个离散随机变量,取非负整数值。证明
E
=
∑
n
≥
1
P
[
X
≥
n
]
\mathbb E=\sum_{n\ge1}\mathbb P[X\ge n]
E = ∑ n ≥ 1 P [ X ≥ n ] (提示:将
P
[
X
≥
n
]
−
P
[
X
≥
n
+
1
]
\mathbb P[X\ge n]-\mathbb P[X\ge n+1]
P [ X ≥ n ] − P [ X ≥ n + 1 ] )。