回归分析-（多元）线性回归分析基础（ Linear Regression）

回归分析法主要解决的问题；

1、确定变量之间是否存在相关关系，若存在，则找出数学表达式；

2、根据一个或几个变量的值，预测或控制另一个或几个变量的值，且要估计这种控制或预测可以达到何种精确度。

线性回归模型的五个基本假设：

1.零均值假定：假设随机扰动项的期望或均值为零

2.同方差和无自相关假定：假设随机扰动项互不相关且方差相同

3.随机扰动项与解释变量不相关假定：假设随机扰动项与自变量的协方差为0

4.无多重共线性：假设各解释变量之间不存在线性相关关系

5.正态性假定：假设随机扰动项服从正态分布

-------------下面分析不符合基本假设时的情况----------

1.关于多重共线性

一、产生多重共线性的背景

1.经济变量之间具有共同变化趋势；

2.模型中包含滞后变量

3.利用截面数据也可能出现多重共线性

4.样本数据自身的yuanyin

二、完全多重共线性产生的后果

1.参数的估计值不确定

2.参数估计量的方差很大

三、不完全多重共线性产生的后果

1.参数的方差增大

2.对参数估计时，置信区间趋势增大

3.严重多重共线性时，假设检验容易做出错误判断

4.R-square较高，F-检验较高，t-检验不显著

四、检验

1.简单相关系数检验法：一般而言，如果每两个解释变量的简单相关系数（零阶相关系数）比较高，如大于0.8，则可认为存在着较严重的多重共线性

2.方差扩大因子法（variance inflation factor）

3.特征根分析：当矩阵（XX‘）至少有一个特征根近似为零时，X的列向量间必存在复共线性

五、修正

1.提出一些不重要的解释变量：可以首先提出方差扩大因子最大者所对应的自变量，依次剔除，直到消除多重共线性为止

2.增大样本容量：尽可能使样本容量n远大于自变量个数p

3.回归系数的有偏估计：以有偏估计为代价来提高估计量稳定性的方法，如岭回归法、主成分法、偏最小二乘法

2.关于异方差性

一、产生原因

1.模型设定误差：模型中略去了重要解释变量

2.测量误差的变化：抽样技术、数据收集处理方法等所导致的观测误差

3.截面数据中总体各单位的差异

二、产生后果

1.参数估计值虽然是无偏的，但不是最小方差线性无偏估计

2.参数的显著性检验失效

3.回归方程的应用效果极不理想

三、诊断

1.残差图分析法：残差项的散布是随机的，无任何规律

2,Goldfeld-Quanadat检验：（大样本检验且基本满足只有异方差性不满足）将样本分为两个部分，然后分别对两个样本进行回归，并计算比较两个回归的剩余平方和是否有明显差异

3.White检验：在大样本的情况下，用残差平方作为方差的估计值，做其对常数项、解释变量、解释变量的平方及其交叉乘积等所构成的辅助回归，利用辅助回归相应的检验统计量来判断

2.等级相关系数检验法（Spearman检验）

四、修正

加权最小二乘法估计：对较小的残差平方给予较大的权数

3.关于自相关性（Autocorrelation）

一、产生原因

1.经济系统的惯性

2.经济活动的滞后效应

3.数据处理造成的相关

4.蛛网现象

5.模型设定偏误

二、产生后果

1.参数的估计值不再具有最小方差线性无偏性

2.均方误差MSE可能严重低估误差项的方差

3.容易导致对t值评价过高，常用的F检验和t检验失效

4.最小二成估计量对抽样波动变得非常敏感

5.如果不加处理地运用普通最小二乘法估计模型参数，用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。

三、诊断

1.图示检验法：残差散点图

2.自相关系数法：ρ∈[-1,1]

3.D.W检验（适用于小样本，只能用于具有一阶自回归形式的序列相关问题）：ρ的估计

四、修正

1.迭代法

2.差分法：用增量数据代替原来的样本数据，将原来的回归模型变为差分形式的模型。一阶差分法的应用条件是自相关系数ρ=1.

----------

R基本代码：

f->lm(formula,data=data.frame) #其中formula为模型公式，data为数据框

summary（f）#对模型做出相应的检验

---------

一些英语单词：

1.anova，Analysis of Variance，方差分析；

2.coefficient，美[ˌkoʊɪˈfɪʃnt] n.系数；

3.deviance，英['di:vɪəns]美[ˈdivɪəns] n.偏常，异常，异常行为；

4.residuals，英[rɪ'zɪdʒʊəlz]美[rɪ'zɪdʒʊrlz] 剩余误差;

----------

【一些附加：相关分析与回归分析的区别与联系】

//区别：

1．相关分析中涉及的变量不存在自变量和因变量的划分问题，变量之间的关系是对等的；而在回归分析中，则必须根据研究对象的性质和研究分析的目的，对变量进行自变量和因变量的划分。因此，在回归分析中，变量之间的关系是不对等的。

2．在相关分析中所有的变量都必须是随机变量；而在回归分析中，自变量是确定的，因变量才是随机的，即将自变量的给定值代入回归方程后，所得到的因变量的估计值不是唯一确定的，而会表现出一定的随机波动性。

3．相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小，由于变量之间是对等的，因此相关系数是唯一确定的。而在回归分析中，对于互为因果的两个变量 (如人的身高与体重，商品的价格与需求量)，则有可能存在多个回归方程。

//联系：

相关分析是回归分析的基础和前提，回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式，而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时，进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前，就进行回归分析，很容易造成“虚假回归”，相关分析只研究变量之间相关的方向和程度，不能推断变量之间相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化情况，在具体应用过程中，只有把相关分析和回归分析结合起来，才能达到研究和分析的目的。

----------

参考资料：

[1]R统计建模与R软件（薛毅）

[2]实用回归分析，第二版（何晓群）

[3]计量经济学，第三版（庞皓）

[4]（可参考）回归分析的五个基本假设https://blog.csdn.net/Noob_daniel/article/details/76087829