在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。
参数估计的一般问题
-
点估计与区间估计
(1)点估计定义:用样本的估计量的某个取值直接作为总体参数的估计值(如用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计)
评价:无法给出估计值接近总体参数程度的信息
(2) 区间估计定义:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
评价:根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
(3)置信水平的定义:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 -
正态分布下的区间估计图示:
- 估计量的评价
(1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数
(2)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
(3)一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
点估计的常用理论
矩估计
- 作用:用相应的观察值( X ˉ \bar{X} Xˉ作为统计量的估计值)
- 解题套路
(1)一个参数:首先用一阶矩建立方程令: ( X ˉ = E X \bar{X}=E X Xˉ=EX) 若一阶不可用则建立二阶矩方程:( 1 n ∑ i = 1 n X i 2 = E ( X 2 ) \frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}=E\left(X^{2}\right) n1∑i=1nXi2=E(X2))(优先低阶求解)
(2)两个参数:用一阶矩与二阶矩建立两个方程求解(两个未知数)。
最大似然估计
- 作用:选定概率最大的参数值作为估计量。
- 解题套路:
(1)写出似然函数: L ( x 1 , x 2 , ⋯ , x n ; θ ) = { ∏ i = 1 ∞ p ( x i ; θ ) ( 离 散 ) ∏ i = 1 n f ( x i ; θ ) ( 连 续 ) L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)=\left\{\begin{array}{l}\prod_{i=1}^{\infty} p\left(x_{i} ; \theta\right) (离散)\\ \prod_{i=1}^{n} f\left(x_{i} ; \theta\right)(连续)\end{array}\right. L(x1,x2,⋯,xn;θ)={ ∏i=1∞p(xi;θ)(离散)∏i=1nf(xi;θ)(连续);
(2)令 dln L d θ = 0 , d L d θ = 0 \frac{\operatorname{dln} L}{\mathrm{d} \theta}=0, \frac{\mathrm{d} L}{\mathrm{d} \theta}=0 dθdlnL=0,dθdL=0求解驻点,(无驻点用定义法,为常数 θ ^ \hat\theta θ^不唯一);
(3)给出相应最大似然估计值如 u ( θ ^ ) u(\hat\theta) u(θ^)。
数字特征
(1)求 E ( θ ^ ) E(\hat\theta) E(θ^)
(2)求 D ( θ ^ ) D(\hat\theta) D(θ^)
(3)检验 θ ^ \hat\theta θ^是否依概率收敛 θ \theta θ,即对任意的 ε > 0 有 : \varepsilon>0有: ε>0有: lim n → ∞ P { ∣ θ ^ − θ ∣ ⩾ ε } = 0 \lim _{n \rightarrow \infty} P\{|\hat{\theta}-\theta| \geqslant \varepsilon\}=0 limn→∞P{
∣θ^−θ∣⩾ε}=0 或 lim n → ∞ P { ∣ θ ^ − θ ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\{|\hat{\theta}-\theta|<\varepsilon\}=1 limn→∞P{
∣θ^−θ∣<ε}=1
一个总体参数的区间估计
- 大小样本的判定数量依据:30(总结)
均值的区间估计
-
Z分布(大样本、小样本且 σ 2 \sigma^2 σ2已知)
假定条件为:总体服从正态分布,且方差( σ 2 \sigma^2 σ2) 已知;如果不是正态分布;可由正态分布来近似 (n >=30)
z = x ˉ − μ σ / n ∼ N ( 0 , 1 ) z=\frac{\bar{x}-\mu}{\sigma / \sqrt{n}} \sim N(0,1) z=σ/nxˉ−μ∼N(0,1)
x ˉ ± z α / 2 σ n ( σ \bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}(\sigma xˉ±zα/2nσ(σ 已知)$ 或 x ˉ ± z α / 2 s n ( σ \bar{x} \pm z_{\alpha / 2} \frac{s}{\sqrt{n}}(\sigma xˉ±zα/2ns(σ 未知) -
t分布(小样本且 σ 2 \sigma^2 σ2未知)
假定条件:总体服从正态分布,但方差( σ 2 \sigma^2 σ2)) 未知;小样本 (n < 30)
t = x ˉ − μ s / n ∼ t ( n − 1 ) t=\frac{\bar{x}-\mu}{s / \sqrt{n}} \sim t(n-1) t=s/nxˉ−μ∼t(n−1)
x ˉ ± t α / 2 s n \bar{x} \pm t_{\alpha / 2} \frac{s}{\sqrt{n}} xˉ±tα/2ns
样本比例的区间估计
- 样本比例(看样本数量,一般是大样本的z分布)
z = p − π π ( 1 − π ) n ∼ N ( 0 , 1 ) z=\frac{p-\pi}{\sqrt{\frac{\pi(1-\pi)}{n}}} \sim N(0,1) z=nπ(1−π)p−π∼N(0,1)
p ± z α / 2 p ( 1 − p ) n p \pm z_{\alpha / 2} \sqrt{\frac{p(1-p)}{n}} p±zα/2np(1−p)
方差的区间估计
- χ 2 \chi^{2} χ2分布
( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) σ2(n−1)s2∼χ2(n−1)
( n − 1 ) s 2 χ α / 2 2 ( n − 1 ) ≤ σ 2 ≤ ( n − 1 ) s 2 χ 1 − α / 2 2 ( n − 1 ) \frac{(n-1) s^{2}}{\chi_{\alpha / 2}^{2}(n-1)} \leq \sigma^{2} \leq \frac{(n-1) s^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)} χα/22(n−1)(n−1)s2≤σ2≤χ1−α/22(n−1)(n−1)s2
样本数量的确定
- Z分布的反推
n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{\left(z_{\alpha / 2}\right)^{2} \sigma^{2}}{E^{2}} \quad n=E2(zα/2)2σ2 其中 E = z α / 2 σ n \quad E=z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} E=zα/2nσ(E为题目给的期望方差)
z = ( x ˉ 1 − x ˉ 2 ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) z=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \sim N(0,1) z=n1σ12+n2σ22(xˉ1−xˉ2)−(μ1−μ2)∼N(0,1)
两个总体参数的区间估计
均值差的区间估计
-
Z分布(大样本或者小样本且 σ 1 2 , σ 2 2 \sigma_{1}^{2},\sigma_{2}^{2} σ12,σ22已知)
( x ˉ 1 − x ˉ 2 ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha /2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}} (xˉ1−xˉ2)±zα/2n1σ12+n2σ22
( x ˉ 1 − x ˉ 2 ) ± z α / 2 s 1 2 n 1 + s 2 2 n 2 \left(\bar{x}_{1}-\bar{x}_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} (xˉ1−xˉ2)±zα/2n1s12+n2s22 -
t分布(匹配样本且 σ 1 2 , σ 2 2 \sigma_{1}^{2},\sigma_{2}^{2} σ12,σ22已知)
t = ( x ˉ 1 − x ˉ 2 ) − ( μ 1 − μ 2 ) s p 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) ∣ t=\frac{\left(\bar{x}_{1}-\bar{x}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{s_{p} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right) \mid t=spn11+n21(xˉ1−xˉ2)−(μ1−μ2)∼t(n1+n2−2)∣
( x 1 ‾ − x 2 ‾ ) ± t a / 2 ( n 1 + n 2 − 2 ) s p 2 ( 1 n 1 + 1 n 2 ) \left(\overline{x_{1}}-\overline{x_{2}}\right) \pm t_{a / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} (x1−x2)±ta/2(n1+n2−2)sp2(n11+n21)
比例差的区间估计
- Z分布(独立大样本)
( p 1 − p 2 ) ± z α / 2 p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 \left(p_{1}-p_{2}\right) \pm z_{\alpha / 2} \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}} (p1−p2)±zα/2n1p1(1−p1)+n2p2(1−p2)
方差比的区间估计
- F分布
s 1 2 / s 2 2 F α / 2 ≤ σ 1 2 σ 2 2 ≤ s 1 2 / s 2 2 F 1 − α / 2 \frac{s_{1}^{2} / s_{2}^{2}}{F_{\alpha / 2}} \leq \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \leq \frac{s_{1}^{2} / s_{2}^{2}}{F_{1-\alpha / 2}} Fα/2s12/s22≤σ22σ12≤F1−α/2s12/s22
F 1 − α / 2 ( n 1 , n 2 ) = 1 F α / 2 ( n 2 , n 1 ) \quad F_{1-\alpha / 2}\left(n_{1}, n_{2}\right)=\frac{1}{F_{\alpha / 2}\left(n_{2}, n_{1}\right)} F1−α/2(n1,n2)=Fα/2(n2,n1)1
参考
《统计学》 第7版_贾俊平