【概率论】期末复习笔记:数理统计学的基本概念

一、总体与样本

总体:研究对象的全体或研究对象的某项(或某些)数量指标的全体,用 X X X表示(正态总体: X   ~   N ( μ , σ 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2) X~N(μ,σ2)
个体:总体的每个元素
有限总体:含有有限个个体的总体
无限总体:含有无限个个体的总体
总体分布:数量指标 X X X取不同值的比率(是客观存在的)

样本/子样:总体中取得的一部分个体
样本容量 n n n):样本中所含个体的个数
抽样:取得样本的过程
抽样法:抽样过程所采取的方法
随机抽样法:每一个个体是从总体中随机抽取的
随机样本:采用随机抽样法得到的样本
样本: n 维随机向量 ( X 1 , X 2 , ⋯   , X n ) ⟶ 观测 样本值:一组具体的实数 ( x 1 , x 2 , ⋯   , x n ) \text{样本:}n\text{维随机向量}(X_1,X_2,\cdots,X_n)\overset{\text{观测}}{\longrightarrow}\text{样本值:一组具体的实数}(x_1,x_2,\cdots,x_n) 样本:n维随机向量(X1,X2,,Xn)观测样本值:一组具体的实数(x1,x2,,xn)简单随机样本:各 X i X_i Xi X X X同分布相互独立(不做特殊声明,样本均指简单随机样本)
简单随机抽样:获得简单随机样本的方法
简单随机样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的分布函数:设总体 X X X的分布函数为 F ( x ) F(x) F(x),则样本的分布函数为 F ( x 1 , x 2 , ⋯   , x n ) = P { X 1 ≤ x 1 , X 2 ≤ x 2 , ⋯   , X n ≤ x n } = ∏ i = 1 n P { X i ≤ x i } = ∏ i = 1 n F ( x i ) F(x_1,x_2,\cdots,x_n)=P\{X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n\}=\prod\limits_{i=1}^n P\{X_i\le x_i\}=\prod\limits_{i=1}^n F(x_i) F(x1,x2,,xn)=P{ X1x1,X2x2,,Xnxn}=i=1nP{ Xixi}=i=1nF(xi)

  • 若总体 X X X是连续型随机变量(概率密度为 f ( x ) f(x) f(x)),则样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的概率密度为 f ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n f ( x i ) f(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^n f(x_i) f(x1,x2,,xn)=i=1nf(xi)
  • 若总体 X X X是离散型随机变量(分布律为 P { X = a i } = p i P\{X=a_i\}=p_i P{ X=ai}=pi),则样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的分布律为 P { X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n } = ∏ i = 1 n P { X = x i } P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod\limits_{i=1}^n P\{X=x_i\} P{ X1=x1,X2=x2,,Xn=xn}=i=1nP{ X=xi}

二、样本数据的整理

1. 样本频数分布与频率分布

样本频数分布:样本值中不同数值在样本值中出现的频数(即次数)
样本频率分布:样本值中不同数值在样本值中出现的频率(即次数/样本容量)
设样本值中不同的数值记为 x 1 ∗ , x 2 ∗ , ⋯   , x l ∗ x_1^*,x_2^*,\cdots,x_l^* x1,x2,,xl(递增),相应的频数为 m 1 , m 2 , ⋯   , m l m_1,m_2,\cdots,m_l m1,m2,,ml ∑ i = 1 l m i = n \sum\limits_{i=1}^l m_i=n i=1lmi=n),则样本频数分布表:

指标 X X X x 1 ∗ x_1^* x1 x 2 ∗ x_2^* x2 ⋯ \cdots x l ∗ x_l^* xl
频数 m i m_i mi m 1 m_1 m1 m 2 m_2 m2 ⋯ \cdots m l m_l ml

样本频率分布表:

指标 X X X x 1 ∗ x_1^* x1 x 2 ∗ x_2^* x2 ⋯ \cdots x l ∗ x_l^* xl
频率 m i n \frac{m_i}{n} nmi m 1 n \frac{m_1}{n} nm1 m 2 n \frac{m_2}{n} nm2 ⋯ \cdots m l n \frac{m_l}{n} nml

如果总体 X X X是离散型随机变量,则事件 { X = x i ∗ } \{X=x_i^*\} { X=xi}的频率 m i n \frac{m_i}{n} nmi应接近其发生的概率 p i p_i pi
如果总体 X X X是连续型随机变量,那么事件 { X = x i ∗ } \{X=x_i^*\} { X=xi}发生的概率都是 0 0 0,此时考察样本频率分布意义不大,需要考察样本的频率直方图。

2. 频率直方图

设总体 X X X是一个连续型随机变量,具有概率密度 f ( x ) f(x) f(x) ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)是来自总体 X X X的一个样本值。作频率直方图的方法为:

  1. 整理数据:把样本值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn从小到大排序得 x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n ) x_{(1)}\le x_{(2)}\le\cdots\le x_{(n)} x(1)x(2)x(n)

  2. 分组:在包含所有观测值的区间 [ a , b ] [a,b] [a,b]中插入一些分点 a = t 0 < t 1 < ⋯ < t l − 1 < t l = b a=t_0<t_1<\cdots<t_{l-1}<t_l=b a=t0<t1<<tl1<tl=b [ a , b ] [a,b] [a,b]分成 l l l个小区间: t 0 ↑ a t 1 t 2 ⋯ t l − 1 t l ↑ b \underset{\underset{a}{\uparrow}}{t_0}\qquad t_1\qquad t_2\qquad\cdots\qquad t_{l-1}\qquad\underset{\underset{b}{\uparrow}}{t_l} at0t1t2tl1btl一些概念:

    • 组距:小区间的长度 d i = t i − t i − 1 d_i=t_i-t_{i-1} di=titi1
    • 组中值:区间的中点
    • 组数:小区间的个数 l l l

    一般采取等分(各组的组距相等),此时 d i = b − a l d_i=\frac{b-a}{l} di=lba。组距 l l l的选取:

    • n > 100 n>100 n>100 l l l 10 10 10 20 20 20
    • n ≈ 50 n\approx 50 n50 l l l 5 5 5 6 6 6

    注意划分原则:要使每个区间内都有样本观测值落入其中。

  3. 列分组频率分布表:以 m i m_i mi表示观测值落入 ( t i − 1 , t i ] (t_{i-1},t_i] (ti1,ti]中的个数(即这个区间或这组的频数), f i = m i n f_i=\frac{m_i}{n} fi=nmi为这组的频率,记 y i = f i d i = m i n d i y_i=\frac{f_i}{d_i}\textcolor{#aaaaaa}{=\frac{m_i}{nd_i}} yi=difi=ndimi,将分组整理的数据列成表:

分组 组中值 频数 m i m_i mi 频率 f i f_i fi y i y_i yi
[ 27 , 30 ] [27,30] [27,30] 28.5 28.5 28.5 8 8 8 0.105 0.105 0.105 0.035 0.035 0.035
( 30 , 33 ] (30,33] (30,33] 31.5 31.5 31.5 10 10 10 0.132 0.132 0.132 0.044 0.044 0.044
⋯ \cdots ⋯ \cdots ⋯ \cdots ⋯ \cdots ⋯ \cdots
  1. 作频率直方图:在 x O y xOy xOy坐标平面上,分别以 x x x轴上各区间 ( t i − 1 , t i ] (t_{i-1},t_i] (ti1,ti]为底,以 y i = f i d i y_i=\frac{f_i}{d_i} yi=difi为高画一排竖着的矩形,即得频率直方图。注意,矩形的高度是 y i = f i d i y_i=\frac{f_i}{d_i} yi=difi而不是频率 f i f_i fi,是要除以组距的,目的是使所有矩形的面积之和为 1 1 1此时总体 X X X落入区间 ( t i − 1 , t i ) (t_{i-1},t_i) (ti1,ti)的概率 p i ≈ f i p_i\approx f_i pifi
  2. 作概率密度曲线:把频率直方图中各矩形边上的中点光滑地联结起来得到一条曲线,当 n n n l l l充分大时,这条曲线近似于 X X X的概率密度曲线 y = f ( x ) y=f(x) y=f(x)

3. 经验分布函数

设有样本值 ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn),其经验分布函数为 F n ( x ) = 1 n ∑ i = 1 n [ x i ≤ x ] F_n(x)=\frac{1}{n}\sum\limits_{i=1}^n\left[x_i\le x\right] Fn(x)=n1i=1n[xix]其中 [ x i ≤ x ] \left[x_i\le x\right] [xix]表示当 x i ≤ x x_i\le x xix时取 1 1 1 x i > x x_i>x xi>x时取 0 0 0。总结起来, F n ( x ) F_n(x) Fn(x)就是 n n n个样本值中小于等于 x x x x i x_i xi的个数除以样本容量 n n n。换言之,就是小于等于 x x x的样本值的个数占总的样本个数的比例。

经验分布函数具有如下性质:
(1) 单调增;
(2) 连续;
(3) F n ( − ∞ ) = 0 F_n(-\infty)=0 Fn()=0 F n ( + ∞ ) = 1 F_n(+\infty)=1 Fn(+)=1

如果样本值以频数分布表给出,则经验分布函数 F n ( x ) F_n(x) Fn(x)可具体表达为 F n ( x ) = { 0 , x < x i ∗ m 1 + m 2 + ⋯ + m i n , x i ∗ ≤ x < x i + 1 ∗ ,   ( i = 1 , 2 , ⋯   , l − 1 ) 1 , x ≥ x l ∗ F_n(x)=\begin{cases} 0,&x<x_i^*\\ \frac{m_1+m_2+\cdots+m_i}{n},&x_i^*\le x<x_{i+1}^*,\,(i=1,2,\cdots,\textcolor{dodgerblue}{l-1})\\ 1,&x\ge x_l^* \end{cases} Fn(x)= 0,nm1+m2++mi,1,x<xixix<xi+1,(i=1,2,,l1)xxl显然 F n ( x ) F_n(x) Fn(x)是阶梯型函数,在每个 x i ∗ x_i^* xi处有一个跳跃。

经验分布函数不仅与样本容量有关,还与得到的样本值 ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)有关。

三、统计量

1. 统计量的概念

统计量:设 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)是来自总体 X X X的一个样本, T = g ( X 1 , X 2 , ⋯   , X n ) T=g(X_1,X_2,\cdots,X_n) T=g(X1,X2,,Xn) ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的一个实值函数,且 g g g中不包含任何未知参数,则称 T T T为样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的一个统计量。
统计量的观测值:若 ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)是样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的一个观测值,则 t = g ( x 1 , x 2 , ⋯   , x n ) t=g(x_1,x_2,\cdots,x_n) t=g(x1,x2,,xn)称为统计量 T T T的一个观测值。

2. 几个常用的统计量

( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)是来自总体 X X X的样本, ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)是这一样本的观测值。

1) 样本均值

样本均值 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i X=n1i=1nXi(其观测值记为 x ‾ \overline{x} x

E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2存在,则

2) 样本方差和样本标准差

样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2=\frac{1}{\textcolor{red}{n-1}}\sum\limits_{i=1}^n(X_i-\overline{X})^2=\frac{1}{\textcolor{red}{n-1}}\left(\sum\limits_{i=1}^n X_i^2-n\overline{X}^2\right) S2=n11i=1n(XiX)2=n11(i=1nXi2nX2)(其观测值记为 s 2 s^2 s2
样本标准差 S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{S^2}=\sqrt{\frac{1}{\textcolor{red}{n-1}}\sum\limits_{i=1}^n(X_i-\overline{X})^2} S=S2 =n11i=1n(XiX)2 (其观测值记为 s s s
它们是反映样本值分散程度的量。

E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2存在,则

  • E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2
  • ( p ) lim ⁡ n → ∞ S 2 = σ 2 (p)\lim\limits_{n\to\infty}S^2=\sigma^2 (p)nlimS2=σ2

3) 样本矩

样本 k k k阶原点矩 A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum\limits_{i=1}^n X_i^k Ak=n1i=1nXik(其观测值记为 a k a_k ak
样本 k k k阶中心矩 B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k Bk=n1i=1n(XiX)k(其观测值记为 b k b_k bk

显然, A 1 = X ‾ A_1=\overline{X} A1=X B 1 = 0 B_1=0 B1=0 B 2 = n − 1 n S 2 B_2=\textcolor{red}{\frac{n-1}{n}}S^2 B2=nn1S2

设总体 X X X k k k阶原点矩 α k = E ( X k ) \alpha_k=E(X^k) αk=E(Xk)存在,则

  • E ( X k ) = α k E(X^k)=\alpha_k E(Xk)=αk
  • ( p ) lim ⁡ n → ∞ A k = α k (p)\lim\limits_{n\to\infty}A_k=\alpha_k (p)nlimAk=αk

4) 顺序统计量

( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)是来自总体 X X X的样本, ( x 1 , x 2 , ⋯   , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,,xn)是这一样本的一个观测值。将观测值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn从小到大排列为 x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n ) x_{(1)}\le x_{(2)}\le\dots\le x_{(n)} x(1)x(2)x(n)

定义统计量 X ( k ) X_{(k)} X(k)取值为 x ( k ) x_{(k)} x(k) k = 1 , 2 , ⋯   , n k=1,2,\cdots,n k=1,2,,n),由此得到 n n n个统计量 X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) X_{(1)},X_{(2)},\cdots,X_{(n)} X(1),X(2),,X(n),且它们满足 X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n ) X_{(1)}\le X_{(2)}\le\dots\le X_{(n)} X(1)X(2)X(n),称 X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) X_{(1)},X_{(2)},\cdots,X_{(n)} X(1),X(2),,X(n)为该样本的顺序统计量次序统计量

最小顺序统计量 X ( 1 ) = min ⁡ { X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) } X_{(1)}=\min\{X_{(1)},X_{(2)},\cdots,X_{(n)}\} X(1)=min{ X(1),X(2),,X(n)}
最大顺序统计量 X ( n ) = max ⁡ { X ( 1 ) , X ( 2 ) , ⋯   , X ( n ) } X_{(n)}=\max\{X_{(1)},X_{(2)},\cdots,X_{(n)}\} X(n)=max{ X(1),X(2),,X(n)}

5) 样本极差

样本极差 R = X ( n ) − X ( 1 ) R=X_{(n)}-X_{(1)} R=X(n)X(1)(其观测值记为 r = x ( n ) − x ( 1 ) r=x_{(n)}-x_{(1)} r=x(n)x(1)

6) 样本 p p p分位数

样本 p p p分位数:对于 0 < p < 1 0<p<1 0<p<1,统计量 M p = { X ( ⌈ n p ⌉ ) , n p 不是整数 1 2 ( X ( n p ) + X ( n p + 1 ) ) , n p 是整数 M_p=\begin{cases} X_{(\lceil np\rceil)},&np\text{不是整数}\\ \frac{1}{2}\left(X_{(np)}+X_{(np+1)}\right),&np\text{是整数} \end{cases} Mp={ X(⌈np⌉),21(X(np)+X(np+1)),np不是整数np是整数其中 ⌈ n p ⌉ \lceil np\rceil np代表 n p np np向上取整,它也相当于 n p + 1 np+1 np+1向下取整。
样本中位数 p = 1 2 p=\frac{1}{2} p=21时的样本中位数( n n n为奇数时等于 X ( ⌈ n 2 ⌉ ) X_{\left(\left\lceil\frac{n}{2}\right\rceil\right)} X(2n) n n n为偶数时等于 1 2 ( X ( n 2 ) + X ( n 2 + 1 ) ) \frac{1}{2}\left(X_{\left(\frac{n}{2}\right)}+X_{\left(\frac{n}{2}+1\right)}\right) 21(X(2n)+X(2n+1))

四、抽样分布

抽样分布:统计量的概率分布

1. Γ \Gamma Γ分布

X X X服从参数为 α , λ \alpha,\lambda α,λ Γ \Gamma Γ分布: X   ~   Γ ( α , λ ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\Gamma(\alpha,\lambda) X~Γ(α,λ),其中 α > 0 , λ > 0 \alpha>0,\lambda>0 α>0,λ>0

性质:

  1. X   ~   Γ ( α , λ )    ⟹    E ( X ) = α λ \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\Gamma(\alpha,\lambda)\implies E(X)=\frac{\alpha}{\lambda} X~Γ(α,λ)E(X)=λα D ( X ) = α λ 2 D(X)=\frac{\alpha}{\lambda^2} D(X)=λ2α
  2. 设随机变量 X 1 , X 2 , ⋯   , X m X_1,X_2,\cdots,X_m X1,X2,,Xm相互独立,且 X i   ~   Γ ( α i , λ ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X_i\td\Gamma(\alpha_i,\lambda) Xi~Γ(αi,λ),则 ∑ i = 1 m X i   ~   Γ ( ∑ i = 1 m α i , λ ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\sum\limits_{i=1}^m X_i\td\Gamma\left(\sum\limits_{i=1}^m\alpha_i,\lambda\right) i=1mXi~Γ(i=1mαi,λ)

2. χ 2 \chi^2 χ2分布

Γ \Gamma Γ分布中取 α = n 2 \alpha=\frac{n}{2} α=2n λ = 1 2 \lambda=\frac{1}{2} λ=21 Γ \Gamma Γ分布就是自由度为 n n n χ 2 \chi^2 χ2分布。
Z Z Z服从自由度为 n n n χ 2 \chi^2 χ2分布: Z   ~   χ 2 ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n) Z~χ2(n)

性质:

  1. Z   ~   χ 2 ( n )    ⟹    E ( Z ) = n \newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n)\implies E(Z)=n Z~χ2(n)E(Z)=n D ( Z ) = 2 n D(Z)=2n D(Z)=2n
  2. 若随机变量 Z 1 , Z 2 , ⋯   , Z m Z_1,Z_2,\cdots,Z_m Z1,Z2,,Zm相互独立,且 Z i   ~   χ 2 ( n i ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Z_i\td\chi^2(n_i) Zi~χ2(ni),则 ∑ i = 1 m Z i   ~   χ 2 ( ∑ i = 1 m n i ) \sum\limits_{i=1}^\newcommand{\td}{\,\text{\large\textasciitilde}\,}m Z_i\td\chi^2\left(\sum\limits_{i=1}^m n_i\right) i=1mZi~χ2(i=1mni)
  3. 设随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn相互独立,且都服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),则随机变量 χ 2 = ∑ i = 1 n X i 2 \chi^2=\sum\limits_{i=1}^n X_i^2 χ2=i=1nXi2服从自由度为 n n n χ 2 \chi^2 χ2分布,即 χ 2   ~   χ 2 ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2\td\chi^2(n) χ2~χ2(n)特别地,若 X   ~   N ( 0 , 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1) X~N(0,1),则 X 2   ~   χ 2 ( 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X^2\td\chi^2(1) X2~χ2(1)

3. t t t分布

T T T服从自由度为 n n n t t t分布: T   ~   t ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T\td t(n) T~t(n)
t t t分布又称为学生氏分布。
t t t分布的概率密度关于 x = 0 x=0 x=0对称( Γ \Gamma Γ分布、 χ 2 \chi^2 χ2分布、 F F F分布的概率密度都仅在 x > 0 x>0 x>0时为正),且 lim ⁡ n → ∞ t ( x ; n ) = 1 2 π e − x 2 2 \lim\limits_{n\to\infty} t(x;n)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} nlimt(x;n)=2π 1e2x2,故当 n → ∞ n\to\infty n时自由度为 n n n t t t分布收敛于标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)

性质:若 X   ~   N ( 0 , 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1) X~N(0,1) Y   ~   χ 2 ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n) Y~χ2(n),且 X X X Y Y Y相互独立,则 T = X Y / n   ~   t ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,} T=\frac{X}{\sqrt{Y/n}}\td t(n) T=Y/n X~t(n)

4. F F F分布

F F F服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2) F F F分布: F   ~   F ( n 1 , n 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2) F~F(n1,n2)

性质:

  1. X   ~   χ 2 ( n 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\chi^2(n_1) X~χ2(n1) Y   ~   χ 2 ( n 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n_2) Y~χ2(n2),且 X X X Y Y Y相互独立,则 F = X / n 1 Y / n 2   ~   F ( n 1 , n 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,} F=\frac{X/n_1}{Y/n_2}\td F(n_1,n_2) F=Y/n2X/n1~F(n1,n2)
  2. F   ~   F ( n 1 , n 2 )    ⟹    1 F   ~   F ( n 2 , n 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2)\implies\frac{1}{F}\td F(n_2,n_1) F~F(n1,n2)F1~F(n2,n1)(只需在性质1中把 X X X Y Y Y互换即可证明之)

上述分布的详细定义

  1. Γ \Gamma Γ分布:若随机变量 X X X具有概率密度 f ( x ; α , λ ) = { λ α Γ ( α ) x α − 1 e − λ x , x > 0 0 , x ≤ 0 f(x;\alpha,\lambda)=\begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},&x>0\\ 0,&x\le 0 \end{cases} f(x;α,λ)={ Γ(α)λαxα1eλx,0,x>0x0其中 α > 0 \alpha>0 α>0 λ > 0 \lambda>0 λ>0为常数,则称 X X X服从参数为 α , λ \alpha,\lambda α,λ Γ \Gamma Γ分布,记为 X   ~   Γ ( α , λ ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td \Gamma(\alpha,\lambda) X~Γ(α,λ)
  2. χ 2 \chi^2 χ2分布:若随机变量 Z Z Z具有概率密度 χ 2 ( x ; n ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − x 2 , x > 0 0 , x ≤ 0 \chi^2(x;n)=\begin{cases} \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0\\ 0,&x\le 0 \end{cases} χ2(x;n)={ 22nΓ(2n)1x2n1e2x,0,x>0x0则称 Z Z Z服从自由度为 n n n χ 2 \chi^2 χ2分布,记为 Z   ~   χ 2 ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n) Z~χ2(n)
  3. t t t分布:若随机变量 T T T具有概率密度 t ( x ; n ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + x 2 n ) − n + 1 2 t(x;n)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}{\left(1+\frac{x^2}{n}\right)}^{-\frac{n+1}{2}} t(x;n)= Γ(2n)Γ(2n+1)(1+nx2)2n+1则称 T T T服从自由度为 n n n t t t分布,记为 T   ~   t ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T\td t(n) T~t(n)
  4. F F F分布:若随机变量 F F F具有概率密度 f ( x ; n 1 , n 2 ) = { Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) ( n 1 n 2 ) ( n 1 n 2 x ) n 1 2 − 1 ( 1 + n 1 n 2 x ) − n 1 + n 2 2 f(x;n_1,n_2)=\begin{cases}\frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}\left(\frac{n_1}{n_2}\right){\left(\frac{n_1}{n_2}x\right)}^{\frac{n_1}{2}-1}{\left(1+\frac{n_1}{n_2}x\right)}^{-\frac{n_1+n_2}{2}}\end{cases} f(x;n1,n2)={ Γ(2n1)Γ(2n2)Γ(2n1+n2)(n2n1)(n2n1x)2n11(1+n2n1x)2n1+n2则称 F F F服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2) F F F分布,记为 F   ~   F ( n 1 , n 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2) F~F(n1,n2)

分位数

设随机变量 X X X的分布函数为 F ( x ) = P { X ≤ x } F(x)=P\{X\le x\} F(x)=P{ Xx}
下侧 p p p分位数:对于 0 < p < 1 0<p<1 0<p<1,若 x p x_p xp使 P { X ≤ x p } = F ( x p ) = p P\{X\le x_p\}=F(x_p)=p P{ Xxp}=F(xp)=p,则称 x p x_p xp为分布 F ( x ) F(x) F(x)(或随机变量 X X X)的下侧 p p p分位数。
上侧 α \alpha α分位数:对于 0 < α < 1 0<\alpha<1 0<α<1,若 x α x_\alpha xα使 P { X > x α } = 1 − F ( x α ) = α P\{X>x_\alpha\}=1-F(x_\alpha)=\alpha P{ X>xα}=1F(xα)=α,则称 x α x_\alpha xα为分布 F ( x ) F(x) F(x)(或随机变量 X X X)的上侧 α \alpha α分位数。

上侧 α \alpha α分位数=下侧 1 − α 1-\alpha 1α分位数;
下侧 p p p分位数=上侧 1 − p 1-p 1p分位数。

总的来说,上侧 α \alpha α分位数就是使得 X X X大于它的概率为 α \alpha α的那个数。

标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)的上侧 α \alpha α分位数:用 u α u_\alpha uα表示, 1 − Φ ( u α ) = α 1-\Phi(u_\alpha)=\alpha 1Φ(uα)=α u 1 − α = − u α u_{1-\alpha}=-u_\alpha u1α=uα
t ( n ) t(n) t(n)分布的上侧 α \alpha α分位数:用 t α ( n ) t_\alpha(n) tα(n)表示; t 1 − α = − t α t_{1-\alpha}=-t_\alpha t1α=tα
χ 2 ( n ) \chi^2(n) χ2(n)分布的上侧 α \alpha α分位数:用 χ α 2 ( n ) \chi^2_\alpha(n) χα2(n)表示
F ( n 1 , n 2 ) F(n_1,n_2) F(n1,n2)分布的上侧 α \alpha α分位数:用 F α ( n 1 , n 2 ) F_\alpha(n_1,n_2) Fα(n1,n2)表示; F α ( n 1 , n 2 ) = 1 F 1 − α ( n 2 , n 1 ) F_\alpha(n_1,n_2)=\frac{1}{F_{1-\alpha}(n_2,n_1)} Fα(n1,n2)=F1α(n2,n1)1

若分布的概率密度函数关于 x = 0 x=0 x=0对称,则它的上侧 1 − α 1-\alpha 1α分位数等于上侧 α \alpha α分位数的相反数。以标准正态分布为例,我们知道 Φ ( u α ) = 1 − α \Phi(u_\alpha)=1-\alpha Φ(uα)=1α Φ ( u 1 − α ) = α \Phi(u_{1-\alpha})=\alpha Φ(u1α)=α,则 Φ ( u α ) + Φ ( u 1 − α ) = 1 \Phi(u_\alpha)+\Phi(u_{1-\alpha})=1 Φ(uα)+Φ(u1α)=1。而 Φ ( u α ) = ∫ − ∞ u α φ ( x )  ⁣ d x = ∫ − u α + ∞ φ ( x )  ⁣ d x \newcommand{\dif}{\mathop{}\!\mathrm{d}}\Phi(u_\alpha)=\int_{-\infty}^{u_\alpha}\varphi(x)\dif x=\int_{-u_\alpha}^{+\infty}\varphi(x)\dif x Φ(uα)=uαφ(x)dx=uα+φ(x)dx Φ ( u 1 − α ) = ∫ − ∞ u 1 − α φ ( x )  ⁣ d x \newcommand{\dif}{\mathop{}\!\mathrm{d}}\Phi(u_{1-\alpha})=\int_{-\infty}^{u_{1-\alpha}}\varphi(x)\dif x Φ(u1α)=u1αφ(x)dx,两者之和为 1 1 1,说明前者积分的下限等于后者积分的上限,故 u 1 − α = − u α u_{1-\alpha}=-u_\alpha u1α=uα。同理 t 1 − α = − t α t_{1-\alpha}=-t_\alpha t1α=tα

关于 F α ( n 1 , n 2 ) = 1 F 1 − α ( n 2 , n 1 ) F_\alpha(n_1,n_2)=\frac{1}{F_{1-\alpha}(n_2,n_1)} Fα(n1,n2)=F1α(n2,n1)1,证明如下:设 X   ~   F ( n 1 , n 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td F(n_1,n_2) X~F(n1,n2),则 P { X > F α ( n 1 , n 2 ) } = α P\{X>F_\alpha(n_1,n_2)\}=\alpha P{ X>Fα(n1,n2)}=α P { 1 X < 1 F α ( n 1 , n 2 ) } = α P\left\{\frac{1}{X}<\frac{1}{F_\alpha(n_1,n_2)}\right\}=\alpha P{ X1<Fα(n1,n2)1}=α,而 1 X   ~   F ( n 2 , n 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{1}{X}\td F(n_2,n_1) X1~F(n2,n1),故 P { 1 X < F 1 − α ( n 2 , n 1 ) } = 1 − ( 1 − α ) = α P\left\{\frac{1}{X}<F_{1-\alpha}(n_2,n_1)\right\}=1-(1-\alpha)=\alpha P{ X1<F1α(n2,n1)}=1(1α)=α,所以 1 F α ( n 1 , n 2 ) = F 1 − α ( n 2 , n 1 ) \frac{1}{F_\alpha(n_1,n_2)}=F_{1-\alpha}(n_2,n_1) Fα(n1,n2)1=F1α(n2,n1)

正态总体的抽样分布

( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, X ‾ \overline{X} X为样本均值, S 2 S^2 S2为样本方差,则:

  1. X ‾   ~   N ( μ , σ 2 n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\overline{X}\td N\left(\mu,\frac{\sigma^2}{n}\right) X~N(μ,nσ2)
  2. ( n − 1 ) S 2 σ 2 = ∑ i = 1 n ( X i − X ‾ ) 2 σ 2   ~   χ 2 ( n − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n-1)S^2}{\sigma^2}=\frac{\sum\limits_{i=1}^n\left(X_i-\overline{X}\right)^2}{\sigma^2}\td\chi^2(n-1) σ2(n1)S2=σ2i=1n(XiX)2~χ2(n1)
  3. X ‾ \overline{X} X S 2 S^2 S2相互独立
  4. T = n ( X ‾ − μ ) S   ~   t ( n − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}\td t(n-1) T=Sn (Xμ)~t(n1)

( X 1 , X 2 , ⋯   , X n 1 ) (X_1,X_2,\cdots,X_{n_1}) (X1,X2,,Xn1) ( Y 1 , Y 2 , ⋯   , Y n 2 ) (Y_1,Y_2,\cdots,Y_{n_2}) (Y1,Y2,,Yn2)是分别来自 N ( μ 1 , σ 2 ) N(\mu_1,\sigma^2) N(μ1,σ2) N ( μ 2 , σ 2 ) N(\mu_2,\sigma^2) N(μ2,σ2)的样本(注意方差是相等的),且两样本相互独立, X ‾ = 1 n 1 ∑ i = 1 n 1 X i \overline{X}=\frac{1}{n_1}\sum\limits_{i=1}^{n_1}X_i X=n11i=1n1Xi Y ‾ = 1 n 2 ∑ i = 1 n 2 Y i \overline{Y}=\frac{1}{n_2}\sum\limits_{i=1}^{n_2}Y_i Y=n21i=1n2Yi S 1 n 1 2 = 1 n 1 − 1 ∑ i = 1 n 1 ( X i − X ‾ ) 2 S_{1n_1}^2=\frac{1}{n_1-1}\sum\limits_{i=1}^{n_1}{\left(X_i-\overline{X}\right)}^2 S1n12=n111i=1n1(XiX)2 S 2 n 2 2 = 1 n 2 − 1 ∑ i = 1 n 2 ( Y i − Y ‾ ) 2 S_{2n_2}^2=\frac{1}{n_2-1}\sum\limits_{i=1}^{n_2}{\left(Y_i-\overline{Y}\right)}^2 S2n22=n211i=1n2(YiY)2,则有:

  1. T = ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S W 1 n 1 + 1 n 2   ~   t ( n 1 + n 2 − 2 ) ( S W = ( n 1 − 1 ) S 1 n 1 2 + ( n 2 − 1 ) S 2 n 2 2 n 1 + n 2 − 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{S_W\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\td t(n_1+n_2-2)\quad\left(S_W=\sqrt{\frac{(n_1-1)S_{1n_1}^2+(n_2-1)S_{2n_2}^2}{n_1+n_2-2}}\right) T=SWn11+n21 (XY)(μ1μ2)~t(n1+n22) SW=n1+n22(n11)S1n12+(n21)S2n22
  2. F = σ 2 2 σ 1 2 S 1 n 1 2 S 2 n 2 2   ~   F ( n 1 − 1 , n 2 − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\frac{\sigma_2^2}{\sigma_1^2}\frac{S_{1n_1}^2}{S_{2n_2}^2}\td F(n_1-1,n_2-1) F=σ12σ22S2n22S1n12~F(n11,n21)

解释:

  1. E ( X ‾ ) = μ E(\overline{X})=\mu E(X)=μ D ( X ‾ ) = σ 2 n D(\overline{X})=\frac{\sigma^2}{n} D(X)=nσ2易得。
  2. 需要复杂的线性代数知识才能证明,从略。
  3. 从略。
  4. 我们知道, X   ~   N ( 0 , 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1) X~N(0,1) Y   ~   χ 2 ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n) Y~χ2(n),且 X , Y X,Y X,Y独立可以推出 T = X Y / n   ~   t ( n ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{X}{\sqrt{Y/n}}\td t(n) T=Y/n X~t(n)。现在我们知道 n ( X ‾ − μ ) σ   ~   N ( 0 , 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{\sigma}\td N(0,1) σn (Xμ)~N(0,1) ( n − 1 ) S 2 σ 2   ~   χ 2 ( n − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n-1)S^2}{\sigma^2}\td\chi^2(n-1) σ2(n1)S2~χ2(n1),且两者相互独立,而 n ( X ‾ − μ ) / σ ( n − 1 ) S 2 / σ 2 / ( n − 1 ) = n ( X ‾ − μ ) S \frac{\sqrt{n}\left(\overline{X}-\mu\right)/\sigma}{\sqrt{(n-1)S^2/\sigma^2/(n-1)}}=\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S} (n1)S2/σ2/(n1) n (Xμ)/σ=Sn (Xμ),故 n ( X ‾ − μ ) S   ~   t ( n − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}\td t(n-1) Sn (Xμ)~t(n1)
  5. 需要知道的是 X ‾ − Y ‾   ~   N ( μ 1 − μ 2 , 1 n 1 + 1 n 2 σ 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\overline{X}-\overline{Y}\td N\left(\mu_1-\mu_2,\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\sigma^2\right) XY~N(μ1μ2,n11+n21 σ2),因此 U = ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 n 1 + 1 n 2   ~   N ( 0 , 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\frac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\td N(0,1) U=σn11+n21 (XY)(μ1μ2)~N(0,1);又 V = ( n 1 − 1 ) S 1 n 1 2 σ 2 + ( n 2 − 1 ) S 2 n 2 2 σ 2   ~   χ 2 ( n 1 + n 2 − 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}V=\frac{(n_1-1)S_{1n_1}^2}{\sigma^2}+\frac{(n_2-1)S_{2n_2}^2}{\sigma^2}\td\chi^2(n_1+n_2-2) V=σ2(n11)S1n12+σ2(n21)S2n22~χ2(n1+n22),故 T = U V / ( n 1 + n 2 − 2 )   ~   t ( n 1 + n 2 − 2 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{U}{\sqrt{V/(n_1+n_2-2)}}\td t(n_1+n_2-2) T=V/(n1+n22) U~t(n1+n22)
  6. 我们知道 ( n 1 − 1 ) S 1 n 1 2 σ 1 2   ~   χ 2 ( n 1 − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n_1-1)S_{1n_1}^2}{\sigma_1^2}\td\chi^2(n_1-1) σ12(n11)S1n12~χ2(n11) ( n 2 − 1 ) S 2 n 2 2 σ 2 2   ~   χ 2 ( n 2 − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n_2-1)S_{2n_2}^2}{\sigma_2^2}\td\chi^2(n_2-1) σ22(n21)S2n22~χ2(n21),且二者相互独立,于是根据 F F F分布的性质有 F = ( n 1 − 1 ) S 1 n 1 2 σ 1 2 / ( n 1 − 1 ) ( n 2 − 1 ) S 2 n 2 2 σ 2 2 / ( n 2 − 1 )   ~   F ( n 1 − 1 , n 2 − 1 ) \newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\frac{\left.\frac{(n_1-1)S_{1n_1}^2}{\sigma_1^2}\right/(n_1-1)}{\left.\frac{(n_2-1)S_{2n_2}^2}{\sigma_2^2}\right/(n_2-1)}\td F(n_1-1,n_2-1) F=σ22(n21)S2n22/(n21)σ12(n11)S1n12/(n11)~F(n11,n21)

猜你喜欢

转载自blog.csdn.net/qaqwqaqwq/article/details/128454175