UA MATH571A 一元线性回归II 统计推断2

β 0 \beta_0 的分布

β 0 \beta_0 关于 Y i Y_i 的线性组合进一步展开
β ^ 0 = i = 1 N ( 1 N k i X ˉ ) Y i = i = 1 N ( 1 N k i X ˉ ) ( β 0 + β 1 X i + ϵ i ) = β 0 + β 1 X ˉ + 1 N i = 1 N ϵ i β 0 X ˉ i = 1 N k i β 1 X ˉ i = 1 N k i X i X ˉ i = 1 N k i ϵ i = β 0 + i = 1 N ( 1 N k i X ˉ ) ϵ i \hat{\beta}_0 = \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) Y_i = \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) (\beta_0+\beta_1 X_i + \epsilon_i) \\ = \beta_0+\beta_1 \bar{X} + \frac{1}{N}\sum_{i=1}^{N}\epsilon_i - \beta_0 \bar{X} \sum_{i=1}^{N}k_i - \beta_1 \bar{X} \sum_{i=1}^{N}k_iX_i - \bar{X}\sum_{i=1}^{N}k_i\epsilon_i \\ = \beta_0 + \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) \epsilon_i

因此
β ^ 0 = β 0 + i = 1 N ( 1 N k i X ˉ ) ϵ i E ( β ^ 0 ) = β 0 V a r ( β ^ 0 ) = σ 2 i = 1 N ( 1 N k i X ˉ ) 2 = σ 2 i = 1 N ( 1 N 2 2 k i X ˉ / N + k i 2 X ˉ 2 ) = σ 2 ( 1 N + i = 1 N k i 2 X ˉ 2 ) β ^ 0 N ( β 0 , σ 2 ( 1 N + i = 1 N k i 2 X ˉ 2 ) ) \hat{\beta}_0 = \beta_0 + \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) \epsilon_i \\ E(\hat{\beta}_0 ) = \beta_0 \\ Var(\hat{\beta}_0 ) = \sigma^2 \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X})^2 =\sigma^2 \sum_{i=1}^{N} ( \frac{1}{N^2}- 2k_i \bar{X}/N + k_i^2\bar{X}^2) = \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2) \\ \hat{\beta}_0 \sim N(\beta_0, \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2))
知道 β ^ 0 \hat{\beta}_0 的分布后,可以像对 β ^ 1 \hat{\beta}_1 做统计推断那样,对 β ^ 0 \hat{\beta}_0 进行推断。

拟合与预测

拟合与预测是一元线性回归另外两个常用的功能。拟合指的是变量X的值 X h X_h 对应的变量Y的估计值:
Y ^ h = β ^ 0 + β ^ 1 X h \hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 X_h
其中 X h X_h 是样本范围内的值。比如在之前的例子中,女性肌肉量与年龄的数据来源于40-79岁的女性群体,变量X的采样范围就是40-79岁。预测指的是对样本以外的变量X的值 X h X_h ,计算变量Y的估计值。比如根据女性肌肉量与年龄的回归关系,计算80岁女性个体平均肌肉量,80岁不在样本内,所以这是预测。

拟合值的区间估计

与系数的估计量类似, Y ^ h \hat{Y}_h 也是一个随机变量,所以根据模型与输入 X h X_h 算出来的拟合值只是对 Y ^ h \hat{Y}_h 的一个观测。 Y ^ h \hat{Y}_h 服从正态分布,
E ( Y ^ h ) = E ( β ^ 0 + β ^ 1 X h ) = β 0 + β 1 X h = Y h V a r ( Y ^ h ) = V a r ( β ^ 0 + β ^ 1 X h ) = σ 2 ( 1 N + ( X h X ˉ ) 2 i = 1 N ( X i X ˉ ) 2 ) E(\hat{Y}_h) = E(\hat{\beta}_0 + \hat{\beta}_1 X_h) = \beta_0 + \beta_1 X_h = Y_h \\ Var(\hat{Y}_h) = Var(\hat{\beta}_0 + \hat{\beta}_1 X_h)= \sigma^2 (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} )
所以方差的无偏估计为
s 2 { Y ^ h } = M S E ( 1 N + ( X h X ˉ ) 2 i = 1 N ( X i X ˉ ) 2 ) t = Y ^ h Y h s e { Y ^ h } = Y ^ h Y h M S E ( 1 N + ( X h X ˉ ) 2 i = 1 N ( X i X ˉ ) 2 ) t ( N 2 ) s^2 \{\hat{Y}_h\} = MSE (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} ) \\ t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h\}} = \frac{\hat{Y}_h - Y_h}{\sqrt{MSE (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} )}} \sim t(N-2)
根据该分布可以给出下面的关系式,其中 1 α 1-\alpha 是置信水平
1 α = P ( t ( α 2 , N 2 ) < t < t ( 1 α 2 , N 2 ) ) 1-\alpha = P(t(\frac{\alpha}{2},N-2)< t<t(1-\frac{\alpha}{2},N-2))
据此可以得到拟合值置信水平为 1 α 1-\alpha 的置信区间
Y ^ h s e ( s e { Y ^ h } ) t ( 1 α 2 , N 2 ) < Y h < Y ^ h + s e ( s e { Y ^ h } ) t ( 1 α 2 , N 2 ) \hat{Y}_h-se(se\{\hat{Y}_h\})t(1-\frac{\alpha}{2},N-2)< Y_h < \hat{Y}_h+se(se\{\hat{Y}_h\})t(1-\frac{\alpha}{2},N-2)

预测值的区间估计

X h X_h 是采样范围的新的观测值时,预测值
Y ^ h = β ^ 0 + β ^ 1 X h \hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 X_h
同样可以构造t分布
t = Y ^ h Y h s e { Y ^ h Y h } t ( N 2 ) t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h-Y_h\}} \sim t(N-2)
此时 Y h Y_h 要当成是一个随机变量, V a r ( Y h ) = σ 2 Var(Y_h)=\sigma^2
V a r ( Y ^ h Y h ) = V a r ( Y ^ h ) + V a r ( Y h ) = σ 2 ( 1 + 1 N + ( X h X ˉ ) 2 i = 1 N ( X i X ˉ ) 2 ) t = Y ^ h Y h s e { Y ^ h Y h } = Y ^ h Y h M S E ( 1 + 1 N + ( X h X ˉ ) 2 i = 1 N ( X i X ˉ ) 2 ) t ( N 2 ) Var(\hat{Y}_h-Y_h)=Var(\hat{Y}_h)+Var(Y_h)=\sigma^2 (1+\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} ) \\ t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h-Y_h\}} = \frac{\hat{Y}_h - Y_h}{\sqrt{MSE (1+\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} )}} \sim t(N-2)
所以预测值置信水平为 1 α 1-\alpha 的置信区间
Y ^ h s e ( s e { Y ^ h Y h } ) t ( 1 α 2 , N 2 ) < Y h < Y ^ h + s e ( s e { Y ^ h Y h } ) t ( 1 α 2 , N 2 ) \hat{Y}_h-se(se\{\hat{Y}_h-Y_h\})t(1-\frac{\alpha}{2},N-2)< Y_h < \hat{Y}_h+se(se\{\hat{Y}_h-Y_h\})t(1-\frac{\alpha}{2},N-2)

数值例子:女性肌肉量与年龄的关系

上一篇我们已经建立了女性肌肉量与年龄的一元线性回归模型
Y i = β 0 + β 1 X i + ϵ i Y_i = \beta_0 + \beta_1 X_i + \epsilon_i
其中 Y i Y_i 表示女性个体的肌肉量, X i X_i 表示女性个体的年龄。现在我们按假设检验的思路对女性个体肌肉量会随着年龄增长而减少的猜想进行验证。
H 0 : β 1 0 H a : β 1 < 0 H_0: \beta_1 \ge 0 \\ H_a: \beta_1 < 0
原假设的含义是女性个体的肌肉量会随着年龄增长而变多或是保持不变,备择假设的含义是女性个体的肌肉量会随着年龄增长变少。从summary()的结果中读取统计量 t = β ^ 1 s e ( β 1 ^ ) t^* = \frac{\hat{\beta}_1 }{se(\hat{\beta_1})} 的值:
在这里插入图片描述
红框内的结果是 s e ( β 1 ^ ) se(\hat{\beta_1}) ,黄框中的结果是 t t^* ,单边检验中 t t^* 需要和 t ( 1 α 2 , N 2 ) t(1-\frac{\alpha}{2},N-2) 比较,假设检验水平为1%

> -qt(1-(.01/2),58)
[1] -2.663287

显然 t < 2.663287 t^*<-2.663287 ,拒绝原假设,接受备择假设:女性个体的肌肉量会随着年龄增长变少。蓝框中的值并非是这个检验的p值,而是双边检验的p值。可以根据上面叙述的结论计算该检验的p值

> pt(-13.19,58)
[1] 2.084381e-19

灰框中是 β 0 \beta_0 相关的量,可以用来对 β 0 \beta_0 的推断。如果要估计40岁女性肌肉量的95%置信区间,可以采用下面的方法

>  predict(Ex1.lm,newdata=data.frame(X=40),interval="conf",level=.95)
       fit     lwr      upr
[1] 108.7467 104.566 112.9275

结果说明40岁女性的平均肌肉量是108.7467(我也不知道单位是啥。。。),95%的置信区间是[104.566,112.9275]说明如果有大量样本的话可以观察到95%的四十岁女性肌肉量都在这个区间内。如果要估计80岁女性肌肉量的95%置信区间,同样应该使用predict()函数,但interval要改为predict

> predict(Ex1.lm,newdata=data.frame(X=80),interval="pred",level=.9)
       fit      lwr      upr
1 61.14692 47.04494 75.24891

结果说明80岁女性的平均肌肉量是61.14692,95%的置信区间是[47.04494,75.24891]。

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/106346483