一、总体与样本

总体：研究对象的全体或研究对象的某项（或某些）数量指标的全体，用 $X$ 表示（正态总体： $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2)$ ）
个体：总体的每个元素
有限总体：含有有限个个体的总体
无限总体：含有无限个个体的总体
总体分布：数量指标 $X$ 取不同值的比率（是客观存在的）

样本/子样：总体中取得的一部分个体
样本容量（ $n$ ）：样本中所含个体的个数
抽样：取得样本的过程
抽样法：抽样过程所采取的方法
随机抽样法：每一个个体是从总体中随机抽取的
随机样本：采用随机抽样法得到的样本
$\text{样本：}n\text{维随机向量}(X_1,X_2,\cdots,X_n)\overset{\text{观测}}{\longrightarrow}\text{样本值：一组具体的实数}(x_1,x_2,\cdots,x_n)$ 简单随机样本：各 $X_i$ 与 $X$ 同分布且相互独立（不做特殊声明，样本均指简单随机样本）
简单随机抽样：获得简单随机样本的方法
简单随机样本 $(X_1,X_2,\cdots,X_n)$ 的分布函数：设总体 $X$ 的分布函数为 $F (x)$ ，则样本的分布函数为 $F(x_1,x_2,\cdots,x_n)=P\{X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n\}=\prod\limits_{i=1}^n P\{X_i\le x_i\}=\prod\limits_{i=1}^n F(x_i)$

若总体 $X$ 是连续型随机变量（概率密度为 $f (x)$ ），则样本 $(X_1,X_2,\cdots,X_n)$ 的概率密度为 $f(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^n f(x_i)$
若总体 $X$ 是离散型随机变量（分布律为 $P\{X=a_i\}=p_i$ ），则样本 $(X_1,X_2,\cdots,X_n)$ 的分布律为 $P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod\limits_{i=1}^n P\{X=x_i\}$

二、样本数据的整理

1. 样本频数分布与频率分布

样本频数分布：样本值中不同数值在样本值中出现的频数（即次数）
样本频率分布：样本值中不同数值在样本值中出现的频率（即次数/样本容量）
设样本值中不同的数值记为 $x_1^*,x_2^*,\cdots,x_l^*$ （递增），相应的频数为 $m_1,m_2,\cdots,m_l$ （ $\sum\limits_{i=1}^l m_i=n$ ），则样本频数分布表：

指标 $X$	$x_1^*$	$x_2^*$	$\cdots$	$x_l^*$
频数 $m_i$	$m_1$	$m_2$	$\cdots$	$m_l$

样本频率分布表：

指标 $X$	$x_1^*$	$x_2^*$	$\cdots$	$x_l^*$
频率 $\frac{m_i}{n}$	$\frac{m_1}{n}$	$\frac{m_2}{n}$	$\cdots$	$\frac{m_l}{n}$

如果总体 $X$ 是离散型随机变量，则事件 ${X=x_i^*\}$ 的频率 $\frac{m_i}{n}$ 应接近其发生的概率 $p_i$ 。
如果总体 $X$ 是连续型随机变量，那么事件 ${X=x_i^*\}$ 发生的概率都是 $0$ ，此时考察样本频率分布意义不大，需要考察样本的频率直方图。

2. 频率直方图

设总体 $X$ 是一个连续型随机变量，具有概率密度 $f (x)$ ， $(x_1,x_2,\cdots,x_n)$ 是来自总体 $X$ 的一个样本值。作频率直方图的方法为：

整理数据：把样本值 $x_1,x_2,\cdots,x_n$ 从小到大排序得 $x_{(1)}\le x_{(2)}\le\cdots\le x_{(n)}$ 。
分组：在包含所有观测值的区间 $[a, b]$ 中插入一些分点 $a=t_0<t_1<\cdots<t_{l-1}<t_l=b$ 把 $[a, b]$ 分成 $l$ 个小区间： $\underset{\underset{a}{\uparrow}}{t_0}\qquad t_1\qquad t_2\qquad\cdots\qquad t_{l-1}\qquad\underset{\underset{b}{\uparrow}}{t_l}$ 一些概念：
- 组距：小区间的长度 $d_i=t_i-t_{i-1}$
- 组中值：区间的中点
- 组数：小区间的个数 $l$
一般采取等分（各组的组距相等），此时 $d_i=\frac{b-a}{l}$ 。组距 $l$ 的选取：
- $n > 100$ ： $l$ 取 $10$ 到 $20$
- $n\approx 50$ ： $l$ 取 $5$ 或 $6$
注意划分原则：要使每个区间内都有样本观测值落入其中。
列分组频率分布表：以 $m_i$ 表示观测值落入 $t_{i-1},t_i]$ 中的个数（即这个区间或这组的频数）， $f_i=\frac{m_i}{n}$ 为这组的频率，记 $y_i=\frac{f_i}{d_i}\textcolor{#aaaaaa}{=\frac{m_i}{nd_i}}$ ，将分组整理的数据列成表：

分组	组中值	频数 $m_i$	频率 $f_i$	$y_i$
$[27, 30]$	$28.5$	$8$	$0.105$	$0.035$
$(30, 33]$	$31.5$	$10$	$0.132$	$0.044$
$\cdots$	$\cdots$	$\cdots$	$\cdots$	$\cdots$

作频率直方图：在 $x O y$ 坐标平面上，分别以 $x$ 轴上各区间 $t_{i-1},t_i]$ 为底，以 $y_i=\frac{f_i}{d_i}$ 为高画一排竖着的矩形，即得频率直方图。注意，矩形的高度是 $y_i=\frac{f_i}{d_i}$ 而不是频率 $f_i$ ，是要除以组距的，目的是使所有矩形的面积之和为 $1$ 。此时总体 $X$ 落入区间 $t_{i-1},t_i)$ 的概率 $p_i\approx f_i$ 。
作概率密度曲线：把频率直方图中各矩形边上的中点光滑地联结起来得到一条曲线，当 $n$ 与 $l$ 充分大时，这条曲线近似于 $X$ 的概率密度曲线 $y = f (x)$ 。

3. 经验分布函数

设有样本值 $(x_1,x_2,\cdots,x_n)$ ，其经验分布函数为 $F_n(x)=\frac{1}{n}\sum\limits_{i=1}^n\left[x_i\le x\right]$ 其中 $\left[x_i\le x\right]$ 表示当 $x_i\le x$ 时取 $1$ ， $x_i>x$ 时取 $0$ 。总结起来， $F_n(x)$ 就是 $n$ 个样本值中小于等于 $x$ 的 $x_i$ 的个数除以样本容量 $n$ 。换言之，就是小于等于 $x$ 的样本值的个数占总的样本个数的比例。

经验分布函数具有如下性质：
(1) 单调增；
(2) 右连续；
(3) $F_n(-\infty)=0$ ， $F_n(+\infty)=1$ 。

如果样本值以频数分布表给出，则经验分布函数 $F_n(x)$ 可具体表达为 $F_n(x)=\begin{cases} 0,&x<x_i^*\\ \frac{m_1+m_2+\cdots+m_i}{n},&x_i^*\le x<x_{i+1}^*,\,(i=1,2,\cdots,\textcolor{dodgerblue}{l-1})\\ 1,&x\ge x_l^* \end{cases}$ 显然 $F_n(x)$ 是阶梯型函数，在每个 $x_i^*$ 处有一个跳跃。

经验分布函数不仅与样本容量有关，还与得到的样本值 $(x_1,x_2,\cdots,x_n)$ 有关。

三、统计量

1. 统计量的概念

统计量：设 $(X_1,X_2,\cdots,X_n)$ 是来自总体 $X$ 的一个样本， $T=g(X_1,X_2,\cdots,X_n)$ 为 $(X_1,X_2,\cdots,X_n)$ 的一个实值函数，且 $g$ 中不包含任何未知参数，则称 $T$ 为样本 $(X_1,X_2,\cdots,X_n)$ 的一个统计量。
统计量的观测值：若 $(x_1,x_2,\cdots,x_n)$ 是样本 $(X_1,X_2,\cdots,X_n)$ 的一个观测值，则 $t=g(x_1,x_2,\cdots,x_n)$ 称为统计量 $T$ 的一个观测值。

2. 几个常用的统计量

设 $(X_1,X_2,\cdots,X_n)$ 是来自总体 $X$ 的样本， $(x_1,x_2,\cdots,x_n)$ 是这一样本的观测值。

1) 样本均值

样本均值： $\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i$ （其观测值记为 $\overline{x}$ ）

设 $E(X)=\mu$ 、 $D(X)=\sigma^2$ 存在，则

$E(\overline{X})=\mu$
$D(\overline{X})=\frac{\sigma^2}{n}$
$(p)\lim\limits_{n\to\infty}\overline{X}=\mu$ （有关依概率收敛的定义见【概率论】期中复习笔记（下）：大数定律与中心极限定理）

2) 样本方差和样本标准差

样本方差： $S^2=\frac{1}{\textcolor{red}{n-1}}\sum\limits_{i=1}^n(X_i-\overline{X})^2=\frac{1}{\textcolor{red}{n-1}}\left(\sum\limits_{i=1}^n X_i^2-n\overline{X}^2\right)$ （其观测值记为 $s^2$ ）
样本标准差： $S=\sqrt{S^2}=\sqrt{\frac{1}{\textcolor{red}{n-1}}\sum\limits_{i=1}^n(X_i-\overline{X})^2}$ （其观测值记为 $s$ ）
它们是反映样本值分散程度的量。

设 $E(X)=\mu$ 、 $D(X)=\sigma^2$ 存在，则

$E(S^2)=\sigma^2$
$(p)\lim\limits_{n\to\infty}S^2=\sigma^2$

3) 样本矩

样本 $k$ 阶原点矩： $A_k=\frac{1}{n}\sum\limits_{i=1}^n X_i^k$ （其观测值记为 $a_k$ ）
样本 $k$ 阶中心矩： $B_k=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k$ （其观测值记为 $b_k$ ）

显然， $A_1=\overline{X}$ ， $B_1=0$ ， $B_2=\textcolor{red}{\frac{n-1}{n}}S^2$ 。

设总体 $X$ 的 $k$ 阶原点矩 $\alpha_k=E(X^k)$ 存在，则

$E(X^k)=\alpha_k$
$(p)\lim\limits_{n\to\infty}A_k=\alpha_k$

4) 顺序统计量

设 $(X_1,X_2,\cdots,X_n)$ 是来自总体 $X$ 的样本， $(x_1,x_2,\cdots,x_n)$ 是这一样本的一个观测值。将观测值 $x_1,x_2,\cdots,x_n$ 从小到大排列为 $x_{(1)}\le x_{(2)}\le\dots\le x_{(n)}$ 。

定义统计量 $X_{(k)}$ 取值为 $x_{(k)}$ （ $k=1,2,\cdots,n$ ），由此得到 $n$ 个统计量 $X_{(1)},X_{(2)},\cdots,X_{(n)}$ ，且它们满足 $X_{(1)}\le X_{(2)}\le\dots\le X_{(n)}$ ，称 $X_{(1)},X_{(2)},\cdots,X_{(n)}$ 为该样本的顺序统计量或次序统计量。

最小顺序统计量： $X_{(1)}=\min\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}$
最大顺序统计量： $X_{(n)}=\max\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}$

5) 样本极差

样本极差： $R=X_{(n)}-X_{(1)}$ （其观测值记为 $r=x_{(n)}-x_{(1)}$ ）

6) 样本 $p$ 分位数

样本 $p$ 分位数：对于 $0 < p < 1$ ，统计量 $M_p=\begin{cases} X_{(\lceil np\rceil)},&np\text{不是整数}\\ \frac{1}{2}\left(X_{(np)}+X_{(np+1)}\right),&np\text{是整数} \end{cases}$ 其中 $\lceil np\rceil$ 代表 $n p$ 向上取整，它也相当于 $n p + 1$ 向下取整。
样本中位数： $p=\frac{1}{2}$ 时的样本中位数（ $n$ 为奇数时等于 $X_{\left(\left\lceil\frac{n}{2}\right\rceil\right)}$ ， $n$ 为偶数时等于 $\frac{1}{2}\left(X_{\left(\frac{n}{2}\right)}+X_{\left(\frac{n}{2}+1\right)}\right)$ ）

四、抽样分布

抽样分布：统计量的概率分布

1. $\Gamma$ 分布

$X$ 服从参数为 $\alpha,\lambda$ 的 $\Gamma$ 分布： $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\Gamma(\alpha,\lambda)$ ，其中 $\alpha>0,\lambda>0$

性质：

$\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\Gamma(\alpha,\lambda)\implies E(X)=\frac{\alpha}{\lambda}$ ， $D(X)=\frac{\alpha}{\lambda^2}$
设随机变量 $X_1,X_2,\cdots,X_m$ 相互独立，且 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X_i\td\Gamma(\alpha_i,\lambda)$ ，则 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\sum\limits_{i=1}^m X_i\td\Gamma\left(\sum\limits_{i=1}^m\alpha_i,\lambda\right)$

2. $\chi^2$ 分布

在 $\Gamma$ 分布中取 $\alpha=\frac{n}{2}$ 、 $\lambda=\frac{1}{2}$ ， $\Gamma$ 分布就是自由度为 $n$ 的 $\chi^2$ 分布。
$Z$ 服从自由度为 $n$ 的 $\chi^2$ 分布： $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n)$

性质：

$\newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n)\implies E(Z)=n$ ， $D (Z) = 2 n$
若随机变量 $Z_1,Z_2,\cdots,Z_m$ 相互独立，且 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Z_i\td\chi^2(n_i)$ ，则 $\sum\limits_{i=1}^\newcommand{\td}{\,\text{\large\textasciitilde}\,}m Z_i\td\chi^2\left(\sum\limits_{i=1}^m n_i\right)$
设随机变量 $X_1,X_2,\cdots,X_n$ 相互独立，且都服从标准正态分布 $N (0, 1)$ ，则随机变量 $\chi^2=\sum\limits_{i=1}^n X_i^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布，即 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2\td\chi^2(n)$ 。特别地，若 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1)$ ，则 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X^2\td\chi^2(1)$ 。

3. $t$ 分布

$T$ 服从自由度为 $n$ 的 $t$ 分布： $\newcommand{\td}{\,\text{\large\textasciitilde}\,}T\td t(n)$
$t$ 分布又称为学生氏分布。
$t$ 分布的概率密度关于 $x = 0$ 对称（ $\Gamma$ 分布、 $\chi^2$ 分布、 $F$ 分布的概率密度都仅在 $x > 0$ 时为正），且 $\lim\limits_{n\to\infty} t(x;n)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ ，故当 $n\to\infty$ 时自由度为 $n$ 的 $t$ 分布收敛于标准正态分布 $N (0, 1)$ 。

性质：若 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1)$ ， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n)$ ，且 $X$ 与 $Y$ 相互独立，则 $\newcommand{\td}{\,\text{\large\textasciitilde}\,} T=\frac{X}{\sqrt{Y/n}}\td t(n)$

4. $F$ 分布

$F$ 服从自由度为 $n_1,n_2)$ 的 $F$ 分布： $\newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2)$

性质：

$\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td\chi^2(n_1)$ ， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n_2)$ ，且 $X$ 与 $Y$ 相互独立，则 $\newcommand{\td}{\,\text{\large\textasciitilde}\,} F=\frac{X/n_1}{Y/n_2}\td F(n_1,n_2)$
$\newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2)\implies\frac{1}{F}\td F(n_2,n_1)$ （只需在性质1中把 $X$ 和 $Y$ 互换即可证明之）

上述分布的详细定义

$\Gamma$ 分布：若随机变量 $X$ 具有概率密度 $f(x;\alpha,\lambda)=\begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},&x>0\\ 0,&x\le 0 \end{cases}$ 其中 $\alpha>0$ ， $\lambda>0$ 为常数，则称 $X$ 服从参数为 $\alpha,\lambda$ 的 $\Gamma$ 分布，记为 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td \Gamma(\alpha,\lambda)$ 。
$\chi^2$ 分布：若随机变量 $Z$ 具有概率密度 $\chi^2(x;n)=\begin{cases} \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0\\ 0,&x\le 0 \end{cases}$ 则称 $Z$ 服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Z\td\chi^2(n)$ 。
$t$ 分布：若随机变量 $T$ 具有概率密度 $t(x;n)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}{\left(1+\frac{x^2}{n}\right)}^{-\frac{n+1}{2}}$ 则称 $T$ 服从自由度为 $n$ 的 $t$ 分布，记为 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}T\td t(n)$ 。
$F$ 分布：若随机变量 $F$ 具有概率密度 $f(x;n_1,n_2)=\begin{cases}\frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}\left(\frac{n_1}{n_2}\right){\left(\frac{n_1}{n_2}x\right)}^{\frac{n_1}{2}-1}{\left(1+\frac{n_1}{n_2}x\right)}^{-\frac{n_1+n_2}{2}}\end{cases}$ 则称 $F$ 服从自由度为 $n_1,n_2)$ 的 $F$ 分布，记为 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}F\td F(n_1,n_2)$ 。

分位数

设随机变量 $X$ 的分布函数为 $F(x)=P\{X\le x\}$ 。
下侧 $p$ 分位数：对于 $0 < p < 1$ ，若 $x_p$ 使 $P\{X\le x_p\}=F(x_p)=p$ ，则称 $x_p$ 为分布 $F (x)$ （或随机变量 $X$ ）的下侧 $p$ 分位数。
上侧 $\alpha$ 分位数：对于 $0<\alpha<1$ ，若 $x_\alpha$ 使 $P\{X>x_\alpha\}=1-F(x_\alpha)=\alpha$ ，则称 $x_\alpha$ 为分布 $F (x)$ （或随机变量 $X$ ）的上侧 $\alpha$ 分位数。

上侧 $\alpha$ 分位数=下侧 $1-\alpha$ 分位数；
下侧 $p$ 分位数=上侧 $1 - p$ 分位数。

总的来说，上侧 $\alpha$ 分位数就是使得 $X$ 大于它的概率为 $\alpha$ 的那个数。

标准正态分布 $N (0, 1)$ 的上侧 $\alpha$ 分位数：用 $u_\alpha$ 表示， $1-\Phi(u_\alpha)=\alpha$ ； $u_{1-\alpha}=-u_\alpha$
$t (n)$ 分布的上侧 $\alpha$ 分位数：用 $t_\alpha(n)$ 表示； $t_{1-\alpha}=-t_\alpha$
$\chi^2(n)$ 分布的上侧 $\alpha$ 分位数：用 $\chi^2_\alpha(n)$ 表示
$F(n_1,n_2)$ 分布的上侧 $\alpha$ 分位数：用 $F_\alpha(n_1,n_2)$ 表示； $F_\alpha(n_1,n_2)=\frac{1}{F_{1-\alpha}(n_2,n_1)}$

若分布的概率密度函数关于 $x = 0$ 对称，则它的上侧 $1-\alpha$ 分位数等于上侧 $\alpha$ 分位数的相反数。以标准正态分布为例，我们知道 $\Phi(u_\alpha)=1-\alpha$ ， $\Phi(u_{1-\alpha})=\alpha$ ，则 $\Phi(u_\alpha)+\Phi(u_{1-\alpha})=1$ 。而 $\newcommand{\dif}{\mathop{}\!\mathrm{d}}\Phi(u_\alpha)=\int_{-\infty}^{u_\alpha}\varphi(x)\dif x=\int_{-u_\alpha}^{+\infty}\varphi(x)\dif x$ ， $\newcommand{\dif}{\mathop{}\!\mathrm{d}}\Phi(u_{1-\alpha})=\int_{-\infty}^{u_{1-\alpha}}\varphi(x)\dif x$ ，两者之和为 $1$ ，说明前者积分的下限等于后者积分的上限，故 $u_{1-\alpha}=-u_\alpha$ 。同理 $t_{1-\alpha}=-t_\alpha$ 。

关于 $F_\alpha(n_1,n_2)=\frac{1}{F_{1-\alpha}(n_2,n_1)}$ ，证明如下：设 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td F(n_1,n_2)$ ，则 $P\{X>F_\alpha(n_1,n_2)\}=\alpha$ ， $P\left\{\frac{1}{X}<\frac{1}{F_\alpha(n_1,n_2)}\right\}=\alpha$ ，而 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{1}{X}\td F(n_2,n_1)$ ，故 $P\left\{\frac{1}{X}<F_{1-\alpha}(n_2,n_1)\right\}=1-(1-\alpha)=\alpha$ ，所以 $\frac{1}{F_\alpha(n_1,n_2)}=F_{1-\alpha}(n_2,n_1)$ 。

正态总体的抽样分布

设 $(X_1,X_2,\cdots,X_n)$ 是来自正态总体 $N(\mu,\sigma^2)$ 的样本， $\overline{X}$ 为样本均值， $S^2$ 为样本方差，则：

$\newcommand{\td}{\,\text{\large\textasciitilde}\,}\overline{X}\td N\left(\mu,\frac{\sigma^2}{n}\right)$
$\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n-1)S^2}{\sigma^2}=\frac{\sum\limits_{i=1}^n\left(X_i-\overline{X}\right)^2}{\sigma^2}\td\chi^2(n-1)$
$\overline{X}$ 与 $S^2$ 相互独立
$\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}\td t(n-1)$

设 $(X_1,X_2,\cdots,X_{n_1})$ ， $(Y_1,Y_2,\cdots,Y_{n_2})$ 是分别来自 $N(\mu_1,\sigma^2)$ ， $N(\mu_2,\sigma^2)$ 的样本（注意方差是相等的），且两样本相互独立， $\overline{X}=\frac{1}{n_1}\sum\limits_{i=1}^{n_1}X_i$ ， $\overline{Y}=\frac{1}{n_2}\sum\limits_{i=1}^{n_2}Y_i$ ， $S_{1n_1}^2=\frac{1}{n_1-1}\sum\limits_{i=1}^{n_1}{\left(X_i-\overline{X}\right)}^2$ ， $S_{2n_2}^2=\frac{1}{n_2-1}\sum\limits_{i=1}^{n_2}{\left(Y_i-\overline{Y}\right)}^2$ ，则有：

$\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{S_W\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\td t(n_1+n_2-2)\quad\left(S_W=\sqrt{\frac{(n_1-1)S_{1n_1}^2+(n_2-1)S_{2n_2}^2}{n_1+n_2-2}}\right)$
$\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\frac{\sigma_2^2}{\sigma_1^2}\frac{S_{1n_1}^2}{S_{2n_2}^2}\td F(n_1-1,n_2-1)$

解释：

由 $E(\overline{X})=\mu$ 、 $D(\overline{X})=\frac{\sigma^2}{n}$ 易得。
需要复杂的线性代数知识才能证明，从略。
从略。
我们知道， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(0,1)$ ， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td\chi^2(n)$ ，且 $X, Y$ 独立可以推出 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{X}{\sqrt{Y/n}}\td t(n)$ 。现在我们知道 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{\sigma}\td N(0,1)$ ， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n-1)S^2}{\sigma^2}\td\chi^2(n-1)$ ，且两者相互独立，而 $\frac{\sqrt{n}\left(\overline{X}-\mu\right)/\sigma}{\sqrt{(n-1)S^2/\sigma^2/(n-1)}}=\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}$ ，故 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}\td t(n-1)$ 。
需要知道的是 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\overline{X}-\overline{Y}\td N\left(\mu_1-\mu_2,\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\sigma^2\right)$ ，因此 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\frac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\td N(0,1)$ ；又 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}V=\frac{(n_1-1)S_{1n_1}^2}{\sigma^2}+\frac{(n_2-1)S_{2n_2}^2}{\sigma^2}\td\chi^2(n_1+n_2-2)$ ，故 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\frac{U}{\sqrt{V/(n_1+n_2-2)}}\td t(n_1+n_2-2)$ 。
我们知道 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n_1-1)S_{1n_1}^2}{\sigma_1^2}\td\chi^2(n_1-1)$ ， $\newcommand{\td}{\,\text{\large\textasciitilde}\,}\frac{(n_2-1)S_{2n_2}^2}{\sigma_2^2}\td\chi^2(n_2-1)$ ，且二者相互独立，于是根据 $F$ 分布的性质有 $\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\frac{\left.\frac{(n_1-1)S_{1n_1}^2}{\sigma_1^2}\right/(n_1-1)}{\left.\frac{(n_2-1)S_{2n_2}^2}{\sigma_2^2}\right/(n_2-1)}\td F(n_1-1,n_2-1)$ 。

【概率论】期末复习笔记：数理统计学的基本概念

数理统计学的基本概念目录

一、总体与样本

二、样本数据的整理

1. 样本频数分布与频率分布

2. 频率直方图

3. 经验分布函数

三、统计量

1. 统计量的概念

2. 几个常用的统计量

1) 样本均值

2) 样本方差和样本标准差

3) 样本矩

4) 顺序统计量

5) 样本极差

6) 样本 $p$ 分位数

四、抽样分布

1. $\Gamma$ 分布

2. $\chi^2$ 分布

3. $t$ 分布

4. $F$ 分布

上述分布的详细定义

分位数

正态总体的抽样分布

猜你喜欢

【概率论】期末复习笔记：数理统计学的基本概念

数理统计学的基本概念目录

一、总体与样本

二、样本数据的整理

1. 样本频数分布与频率分布

2. 频率直方图

3. 经验分布函数

三、统计量

1. 统计量的概念

2. 几个常用的统计量

1) 样本均值

2) 样本方差和样本标准差

3) 样本矩

4) 顺序统计量

5) 样本极差

6) 样本 p p p分位数

四、抽样分布

1. Γ \Gamma Γ分布

2. χ 2 \chi^2 χ2分布

3. t t t分布

4. F F F分布

上述分布的详细定义

分位数

正态总体的抽样分布

猜你喜欢

6) 样本 $p$ 分位数

1. $\Gamma$ 分布

2. $\chi^2$ 分布

3. $t$ 分布

4. $F$ 分布