一、回归分析

变量之间的关系可能是确定性关系（函数关系），也可能是统计依赖关系（相关关系）。在相关关系中，“因变量”是随机变量，它的取值带有不确定性，不能用考察函数关系的方法进行分析，而要用统计学的方法。考察相关关系的方法有两种：当自变量是可以测量和控制的非随机变量时，采用回归分析（regression analysis）；如果自变量也是随机变量或不可控变量，采用相关分析（correlation analysis）。

二、一元线性回归模型

回归函数：设 $x$ 为可控变量， $Y$ 为与之相关的随机变量。当自变量 $x$ 取确定值时， $Y$ 有一确定的（条件）分布与之对应。如果 $Y$ 的数学期望存在，那么其取值随 $x$ 的取值而定，因而它是 $x$ 的函数，记为 $\mu(x)$ ，即 $\mu(x)=E(Y|x)$ ，则称 $\mu(x)$ 为 $Y$ 关于 $x$ 的回归函数。 $\textcolor{orange}{\text{函数关系：}x\text{确定}\longrightarrow Y\text{的\underline{取值}唯一确定}}\\ \textcolor{green}{\text{回归分析：}x\text{确定}\longrightarrow Y\text{的\underline{分布}唯一确定}}$ 回归分析的基本任务是利用试验数据来估计 $Y$ 关于 $x$ 的回归函数 $\mu(x)$ 。

一元线性回归问题：设 $Y$ 关于 $x$ 的回归函数为 $\mu(x)$ ，若 $\mu(x)$ 为线性函数 $\mu(x)=a+bx$ ，此时估计 $\mu(x)$ 的问题称为一元线性回归问题。

一元线性回归模型：设 $x$ 是可控变量， $Y$ 是依赖于 $x$ 的随机变量，假定 $\newcommand{\td}{\,\text{\textasciitilde}\,}\begin{cases} Y=a+bx+\varepsilon\\ \varepsilon\td N(0,\sigma^2) \end{cases}$ 其中未知参数 $a,b,\sigma^2$ 都不依赖于 $x$ ，则称该模型为一元线性回归模型。

样本： $(x_1,Y_1),(x_2,Y_2),\cdots,(x_n,Y_n)$ （ $Y_1,Y_2,\cdots,Y_n$ 是相互独立的随机变量）
样本值： $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$

一元线性回归模型的样本形式： $\newcommand{\td}{\,\text{\textasciitilde}\,}\begin{cases} Y_i=a+bx_i+\varepsilon_i\\ \varepsilon_i\td N(0,\sigma^2) \end{cases}\;(i=1,2,\cdots,n),\,\text{且}\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n\text{相互独立}$ 经验回归直线方程：如果由 $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$ 得到了未知参数 $a, b$ 的估计值 $\hat{a},\hat{b}$ ，则对于给定的 $x$ ，我们可取 $\hat{y}=\hat{a}+\hat{b}x$ 作为 $\mu(x)=a+bx$ 的估计值，而方程 $\hat{y}=\hat{a}+\hat{b}x$ 称为 $Y$ 关于 $x$ 的经验回归方程。

三、 $a, b$ 和 $\sigma^2$ 的估计

最小二乘法：已知变量 $x, Y$ 的 $n$ 对试验数据 $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$ ，其中 $x_i$ 不全相同，作离差平方和 $Q(a,b)=\sum\limits_{i=1}^n{(y_i-a-bx_i)}^2$ ，选择参数 $a, b$ 使得 $Q (a, b)$ 最小，这种方法叫做最小二乘法。

为了求 $Q (a, b)$ 的最小值，需要使 $\cfrac{\partial Q}{\partial a},\cfrac{\partial Q}{\partial b}$ 均为 $0$ ，即 $\begin{cases} \cfrac{\partial Q}{\partial a}=-2\sum\limits_{i=1}^n{(y_i-a-bx_i)}=0\\ \cfrac{\partial Q}{\partial b}=-2\sum\limits_{i=1}^n{(y_i-a-bx_i)}x_i=0 \end{cases}$ 得方程组 $\begin{cases} na+b\sum\limits_{i=1}^n x_i=\sum\limits_{i=1}^n y_i\\ a\sum\limits_{i=1}^n x_i+b\sum\limits_{i=1}^n x_i^2=\sum\limits_{i=1}^n x_iy_i \end{cases}$ 上式称为正规方程组。其系数行列式为 $\begin{vmatrix} n&\sum\limits_{i=1}^n x_i\\ \sum\limits_{i=1}^n x_i&\sum\limits_{i=1}^n x_i^2 \end{vmatrix}=n\sum\limits_{i=1}^n x_i^2-{\left(\sum\limits_{i=1}^n x_i\right)}^2=n\sum\limits_{i=1}^n{\left(x_i-\overline{x}\right)}^2$ 因为 $x_i$ 不完全相同，所以系数行列式不为 $0$ ，因此正规方程组有唯一解，得 $a, b$ 的估计值为 $\begin{cases} \hat{b}=\cfrac{S_{xy}}{S_{xx}}=\cfrac{\bar{x}\bar{y}-\overline{xy}}{\overline{x^2}-\overline{x}^2}\\ \hat{a}=\overline{y}-\hat{b}\overline{x} \end{cases}$ 其中 $S_{xy}=\sum\limits_{i=1}^n \left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)$ ， $S_{xx}=\sum\limits_{i=1}^n{\left(x_i-\overline{x}\right)}^2$ 。

于是，所求的经验回归方程为 $\hat{y}=\hat{a}+\hat{b}x$ 。若把 $\hat{a}=\overline{y}-\hat{b}\overline{x}$ 代入经验回归方程方程，则经验回归直线方程为 $\hat{y}=\overline{y}-\hat{b}\overline{x}+\hat{b}x=\overline{y}+\hat{b}\left(x-\overline{x}\right)$ ，这表明经验回归直线方程过散点图的几何中心 $\left(\overline{x},\overline{y}\right)$ 。

扫描二维码关注公众号，回复： 15104832 查看本文章

下面求 $\sigma^2$ 的估计。令 $\hat{y}_i=\hat{a}+\hat{b}x_i\,(i=1,2,\cdots,n)$ ，称 $y_i-\hat{y}_i$ 为 $x_i$ 处的残差，称 $Q_e=\sum\limits_{i=1}^n{\left(y_i-\hat{y}_i\right)}^2=\sum\limits_{i=1}^n{\left(y_i-\hat{a}-\hat{b}x_i\right)}^2$ 为残差平方和。事实上 $Q_e=Q\!\left(\hat{a},\hat{b}\right)$ 就是 $Q (a, b)$ 的最小值。可以证明， $\sigma^2$ 的无偏估计量为 $\hat{\sigma^2}=\dfrac{Q_e}{n-2}$ 。

$Q_e$ 还可以通过另一种方式计算： $Q_e=S_{yy}-{\left(\hat{b}\right)}^2S_{xx}$ ，其中 $S_{yy}=\sum\limits_{i=1}^n{\left(y_i-\overline{y}\right)}^2$ 。

总结一下公式： $\boxed{\begin{aligned} \hat{y}&=\hat{a}+\hat{b}x\\ \hat{b}&=\cfrac{S_{xy}}{S_{xx}}\\ \hat{a}&=\overline{y}-\hat{b}\overline{x}\\ \hat{\sigma^2}&=\cfrac{Q_e}{n-2}=\cfrac{1}{n-2}\left[S_{yy}-{\left(\hat{b}\right)}^2S_{xx}\right] \end{aligned}}$

四、可化为一元线性回归的模型

1. $Y=\newcommand{\td}{\,\text{\textasciitilde}\,}\alpha e^{\beta x}\cdot\varepsilon,\,\ln\varepsilon\td N(0,\sigma^2)$

其中 $\alpha,\beta,\sigma^2$ 是与 $x$ 无关的未知参数。

等式两边取对数得 $\begin{aligned} \ln Y&=\ln\alpha+\beta x+\ln\varepsilon\\ Y'&=a+bx+\varepsilon' \end{aligned}$ 其中 $Y'=\ln Y,\,a=\ln\alpha,\,b=\beta,\,\varepsilon'=\ln\varepsilon$ 。

2. $Y=\alpha+\beta h(x)+\varepsilon,\,\varepsilon\newcommand{\td}{\,\text{\textasciitilde}\,}\td N(0,\sigma^2)$

其中 $\alpha,\beta,\sigma^2$ 是与 $x$ 无关的未知参数， $h (x)$ 是 $x$ 的已知函数。

令 $a=\alpha,\,b=\beta,\,x'=h(x)$ ，则转化为一元线性回归模型 $Y=a+bx'+\varepsilon$

【概率论】期末复习笔记：一元线性回归

一元线性回归

一、回归分析

二、一元线性回归模型

三、 $a, b$ 和 $\sigma^2$ 的估计

四、可化为一元线性回归的模型

1. $Y=\newcommand{\td}{\,\text{\textasciitilde}\,}\alpha e^{\beta x}\cdot\varepsilon,\,\ln\varepsilon\td N(0,\sigma^2)$

2. $Y=\alpha+\beta h(x)+\varepsilon,\,\varepsilon\newcommand{\td}{\,\text{\textasciitilde}\,}\td N(0,\sigma^2)$

猜你喜欢

【概率论】期末复习笔记：一元线性回归

一元线性回归

一、回归分析

二、一元线性回归模型

三、 a , b a,b a,b和 σ 2 \sigma^2 σ2的估计

四、可化为一元线性回归的模型

1. Y = α e β x ⋅ ε , ln ⁡ ε ~ N ( 0 , σ 2 ) Y=\newcommand{\td}{\,\text{\textasciitilde}\,}\alpha e^{\beta x}\cdot\varepsilon,\,\ln\varepsilon\td N(0,\sigma^2) Y=αeβx⋅ε,lnε~N(0,σ2)

2. Y = α + β h ( x ) + ε , ε ~ N ( 0 , σ 2 ) Y=\alpha+\beta h(x)+\varepsilon,\,\varepsilon\newcommand{\td}{\,\text{\textasciitilde}\,}\td N(0,\sigma^2) Y=α+βh(x)+ε,ε~N(0,σ2)

猜你喜欢

三、 $a, b$ 和 $\sigma^2$ 的估计

1. $Y=\newcommand{\td}{\,\text{\textasciitilde}\,}\alpha e^{\beta x}\cdot\varepsilon,\,\ln\varepsilon\td N(0,\sigma^2)$

2. $Y=\alpha+\beta h(x)+\varepsilon,\,\varepsilon\newcommand{\td}{\,\text{\textasciitilde}\,}\td N(0,\sigma^2)$