关于回归的基础知识
1.回归分析用来研究变量X和Y之间的相关性
2.Y俗称因变量,即核心变量:连续数值型变量,0-1型变量,定序变量(数字代表了程度),计数变量(到访的次数),生存变量(年龄)。 X为解释变量,Y为被解释变量。
3.回归分析的目的:识别重要的解释变量,判断相关性的方向,估计权重(即回归系数)。
4.回归分析的分类:
5.数据的分类:横截面数据,时间序列数据,面板数据。(本次的多元回归分析用于解决横截面数据)
6.对于线性的理解:有的模型可以通过变量代换进行转换成线性模型。如含有平方项和交互项的模型。(所以一个模型中可以含有一个变量的多种形式,如平方,三次方,交互项。因为在回归中各个解释变量之间可以有相关性)
7.注意模型构建成功之后,要对模型进行解释,如回归系数的解释:在保持其它变量不变的情况下,
每增加一个单位,因变量增加(或减少)多少个单位。
8.关于内生性:遗漏变量会导致内生性,即同一个解释变量前后回归系数变化很大,导致模型分析不准确,不满足无偏和一致性(样本数足够多时,拟合值会趋近于观测值的期望)
u为无法观测且满足一定条件的扰动项,其中包含了所有与Y有关但是没有添加到回归模型中的变量。如果这些变量与我i们已经添加的自变量相关,则会存在内生性·。
使用蒙纳卡罗模拟发现某一自变量与u的相关系数越大,回归系数的估计值与正确值偏差越大。
9.模型无内生性不显示,可以弱化。将解释变量分为两类,一类是核心解释变量(我们所关注的变量),一类是控制变量。在实际应用中,只要保证核心解释变量与u不相关即可。
10.对变量取对数构造新的变量,
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
11.对四类模型回归系数的解释:
一元线性回归。
双对数模型:x每增加1%,y平均变化b%
半对数模型:x每增加1个单位,y平均变化(100b)%(对y取对数)
半对数模型:x每增加1%,y平均变化b/100。(对x取对数)
12.在回归中对定性变量的解释
虚拟变量的引入(0-1型变量)
定性变量前的回归系数是在控制其他变量不变的情况下,该虚拟变量与对照组的差异。
为了避免多重共线性的影响引入虚拟变量的个数是分类数-1。
加入虚拟变量使用软件Stata回归,stata会自动检测完全多重共线性问题
注意整理表格,修改字体,不要直接把截图放到论文里。
13.对二值因变量常常使用probit回归。
对数据进行预处理(数据可视化)
使用excel对数据进行预处理,将区域转换为表格,便于管理。修改定性和定量数据的背景,进行总览,制成一个简单的表格放入论文中,进行一个总体情况的介绍·。
在excel中复制由公式得到的某一行或某一列时,注意粘贴为数值。
折线图与柱状图的结合使用。
对数据进行描述性统计
可以用·excel,SPSS,stata.
注意Stata中的语法(符号是英文)
导入数据,保存代码在do-file中。分别对定量数据和定性数据进行描述性统计,顺便可以设置虚拟变量。
注意tabulate每次只能对一个定性变量进行描述性统计
得到结果后,粘贴到Excel中美化(三线表)
当定性数据太多,只能放到附录中,每一个数据对应的分类进行频数统计绘制饼状图(excel)更加直观放入论文中。(数据透视表)做柱状图时注意对数据进行排序。使用数据透视表可以进行交互的分析。
利用Stata进行回归分析
- 在Stata中用reg进行回归时,默认使用OLS普通最小二乘法进行回归。
- Model代表SSR;Residual代表SSE;Total代表总体平方和SST;SS代表;df代表自由度;Coef代表回归系数;Std.Err.代表标准误差(它的作用在于构造t统计量——回归系数除以标准误差)
- 首先要进行联合显著性检验(F统计量),检验这K个自变量前的回归系数是否都等于零。原假设是全部等于零·。
- 用t检验来检验回归系数的显著性,比较P值。(由于量纲的影响单看回归系数的大小没有意义,不能看出显著性)
- 置信区间包含原点说明回归系数的显著性不强。
- 回归用的是定量数据的变量和虚拟变量。
- 注意解读图标和某些数据的意义。(注意虚拟变量回归系数的解读)
- 将回归后得到的表格存到word文档中时,美化表格改变字体·,分析回归系数的意义。
- 回归模型的拟合优度很低,调整后通常更低,回归分为解释型回归(更多关注整体显著性,拟合优度小没有影响),预测型回归(唯拟合优度大是论)。也可以通过对模型进行调整,如·对数据取对数或者平方后进行回归(不要轻易改变变量,否则难以解释或者有内生性问题)
- 使用调整后拟合优度:因为引入的自变量越多,拟合优度越大。我们更倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度比较小,那么调整后的拟合优度反而会变小。
利用Stata进行标准化回归(剔除量纲的影响)b
1.标准化回归是用来比较各个自变量对因变量的重要程度。
2.对数据进行标准化,就是将原始数据减去他的均数之后,再除以该变量的标准差,计算得到的新的变量的值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化的回归系数。(只关注显著的回归系数,标准化系数的绝对值越大,说明对因变量影响越大)即先用未标准化的回归系数进行显著性检验,在通过标准化的回归系数进行变量的重要性判断。
对模型进行稳健性检验
1.更改研究对象(针对某一问题,没有固定研究对象)。
2.更改计量方法。
3.加入其他的控制变量。
扰动项问题
1.我们通常把扰动项看成是便于我们分析的球型扰动项,它满足“同方差”和“无自相关”的条件。但是横截面数据容易出现异方差的问题,时间序列数据容易出现自相关(ui和uj的协方差不为零)的问题。
2.若扰动项中包含与自变量相关的变量会造成内生性,使模型不准确。
关于异方差
1.异方差:异方差性是相对于同方差而言的。所谓同方差(主对角线元素相同),是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项(扰动项)满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。
简单来说就是对于不同的观测值,扰动项的方差不同
2.存在异方差的后果:OLS 估计出来的回归系数仍然是无偏的,一致的,但是假设检验无法使用,因为假设检验构造的t统计量是回归系数除以标准误,而标准误由于异方差的影响而不准确。OLS 不再是最优线性无偏估计量。例如:当自变量x增大时,数据越来越发散。
3.解决异方差的办法:(1)使用OLS和稳健的标准误差(常用)(2)使用广义最小二乘法(分配不同的权重)。
4.检验异方差:画散点图(看数据波动的程度);BP检验和怀特检验(应用范围更广)(原假设是不存在异方差)。
多重共线性的问题
1.多重共线性是指某一自变量与其他自变量的相关性很大。
2.严格的多重共线性往往不存在,完全多重共线性stata会自动识别并删去。非严格的多重共线性往往更常见,会使得对系数的估计不准确。往往表现在:模型的拟合优度很大,联合性检验也很显著,但是但是单个系数的t检验不显著,或者系数的估计值不合理,甚至符号和预期相反。也可能是增减解释变量对系数的估计值影响很大(类似于内生性)。
多重共线性的主要后果是对单个系数的解释不准确,可能使它不显著。
3.检验多重共线性:方差膨胀因子VIF。
4.多重共线性的处理方法
逐步回归分析(解决多重共线性的问题)
向前逐步回归与向后逐步回归(更好),数模时可以用。
逐步回归时,要提前手动删除完全多重共线性的变量(在做一般回归时,stata自动删除过)。