Cook距离

对于线性模型

\begin{matrix} (1) & Y = X β + ϵ . E (ϵ) = 0, C o v (ϵ) = σ^{2} I_{n} \end{matrix}

$Y = X\beta+\epsilon.E(\epsilon)=0,Cov(\epsilon)=\sigma^2I_n \tag1$

β

$\beta$ 的最小二乘估计为

\hat{β} = (X^{T} X)^{- 1} X^{T} Y

$\hat \beta = (X^TX)^{-1}X^TY$ ，用

Y_{(i)}

$Y_{(i)}$ ,

X_{(i)}

$X_{(i)}$ 和

ϵ_{(i)}

$\epsilon_{(i)}$ 分别表示

Y

$Y$ ,

X

$X$ 和

ϵ

$\epsilon$ 中提出第

i

$i$ 行得到向量或者矩阵，剩下的

n - 1

$n-1$ 组数据的线性模型为：

\begin{matrix} (2) & Y_{(i)} = X_{(i)} β + ϵ_{(i)} . E (ϵ_{(i)}) = 0, C o v (ϵ_{(i)}) = σ^{2} I_{n - 1} \end{matrix}

$Y_{(i)} = X_{(i)}\beta+\epsilon_{(i)}.E(\epsilon_{(i)})=0,Cov(\epsilon_{(i)})=\sigma^2I_{n-1} \tag2$
由此模型得到的

β

$\beta$ 的最小二乘估计为

{\hat{β}}_{(i)} = (X_{(i)}^{T} X_{(i)})^{- 1} X_{(i)}^{T} Y_{(i)}

$\hat \beta_{(i)} = (X_{(i)}^TX_{(i)})^{-1}X_{(i)}^TY_{(i)}$ 。称

I F = \hat{β} - {\hat{β}}_{(i)}

$IF=\hat \beta-\hat \beta _{(i)}$ 为第

i

$i$ 组数据对

β

$\beta$ 的印象函数，反映了第

i

$i$ 组数据对回归系数估计

β

$\beta$ 的影响大小，由于此函数为向量函数，不便于定量比较影响的大小，考虑引入某种数量化的函数，

C o o k

$Cook$ 统计量是使用最为广泛的一种。

\begin{matrix} (3) & D_{i, 1} (M, C) = (\hat{β} - {\hat{β}}_{(i)})^{T} M (\hat{β} - {\hat{β}}_{(i)}) / C . \end{matrix}

$D_{i,1} (M,C)=(\hat \beta - \hat \beta_{(i)})^TM(\hat \beta - \hat \beta_{(i)})/C. \tag 3$
式中，

M

$M$ 为正定矩阵，

C

$C$ 为给定的常数，

D_{i, 1} (M, C)

$D_{i,1} (M,C)$ 度量了回归系数估计

β

$\beta$ 的影响大小，取

M = X^{T} X

$M=X^TX$ ,

C = p {\hat{σ}}^{2}

$C=p\hat \sigma^2$ （

p

$p$ 为必要观测数，

{\hat{σ}}^{2}

$\hat \sigma ^2$ 为利用完全数据计算得到的单位权方差），则成为

C o o k

$Cook$ 距离，则：

\begin{matrix} (4) & D_{i, 1} (X^{T} X, C) = \frac{(\hat{β} - {\hat{β}}_{(i)})^{T} X^{T} X (\hat{β} - {\hat{β}}_{(i)})}{p {\hat{σ}}^{2}} \end{matrix}

$D_{i,1} (X^TX,C)= \frac {(\hat \beta - \hat \beta_{(i)})^TX^TX(\hat \beta - \hat \beta_{(i)})} {p\hat \sigma^2} \tag 4$

C o o k

$Cook$ 距离越大，表示提出第组数据后，参数的变化越大。计算得到的值较大的点实际上是偏离预先选定的经验协方差函数模型较大的点，将之剔除，以达到拟合点优选的目的，提高协方差函数的拟合精度。