什么时候应该使用回归分析？控制变量意味着什么？

凡是搞计量经济的，都关注这个号了

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
什么时候应该使用回归分析？控制变量意味着什么？

关于一些计量方法的合辑，各位学者可以参看如下文章：①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向，⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面，咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！，②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授，③Python, Stata, R软件史上最全快捷键合辑！，④关于(模糊)断点回归设计的100篇精选Articles专辑！，⑤关于双重差分法DID的32篇精选Articles专辑！，⑥关于合成控制法SCM的33篇精选Articles专辑！⑦最近80篇关于中国国际贸易领域papers合辑！，⑧最近70篇关于中国环境生态的经济学papers合辑！⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！⑩最近50篇使用系统GMM开展实证研究的papers合辑！
正文

关于下方文字内容，作者：陈铭鑫，大连理工大学商学院，通信邮箱：[email protected]

作者之前刊发的文章：随机分配是什么, 为什么重要, 对因果关系影响几何？
用回归分析来描述一系列自变量和因变量之间的关系。回归分析生成了一个回归方程，它的系数代表每个自变量和因变量之间的关系。你也可以用这个方程来做预测。
作为一个统计学家，我会告诉你，像父母爱他们的孩子一样，我同等地喜爱所有统计分析。但是，嘘！我也有秘密。回归分析是我最爱的，因为它提供了强大的灵活性，使它适用于许多不同的情形。事实上，我把回归分析描述为相关分析的下一个层次。
在这篇文章里，我解释了回归分析的能力，它能评估的变量关系的种类，它怎么控制变量，以及我为什么喜欢他！你会学到你什么时候应该考虑用回归分析。
用回归来分析各种各样的关系
什么时候应该使用回归分析？控制变量意味着什么？
回归分析可以解决很多事情，比如，你可以用回归分析来做下面这些：
• 对多个自变量建模
• 包括连续变量和分类变量
• 使用多项式刻画曲率（model curvature）
• 用交互项来评估一个自变量的作用是否取决于另一个变量的值
这些能力很酷，但是还没包含一个最魔幻的能力。回归分析可以解读非常复杂的难题，比如，变量像意大利面一样纠缠在一起时。想象作为研究员的你，需要研究以下问题：
• 社会经济地位和种族会影响教育成就吗？
• 教育和智商会影响收入吗？
• 锻炼习惯和饮食平衡影响体重吗？
• 喝咖啡和吸烟与死亡风险相关吗？
• 特定的运动干预是否对骨密度有影响并且这种影响不同于其他体育运动？
所有的这些研究问题里各个自变量相互缠绕（关联），共同影响因变量。你怎么解开这张连接着相关变量的网？哪个变量具有统计意义，每个变量扮演者什么样的角色？让回归来救你，因为你可以用它来分析所有这些情形。
使用回归分析来控制自变量
像我说的，回归分析描述了自变量的改变如何与因变量的改变相关的。关键是，回归在统计学上控制着你模型里的每一个变量。
控制变量意味着什么
当你执行回归分析时，你需要孤立每个变量在该模型中所扮演的角色。比如，我参加了一项运动干预研究，目的是确定该干预是否增加了受试者的骨矿物质密度。我们需要将运动干预的作用与可能影响骨骼矿物质密度的从饮食到其他身体活动的所有因素区分开。
为了完成这个目标，你必须使混淆变量的作用降到最小。回归分析通过保持其他自变量不变的情况下估计一个自变量的改变对因变量的影响来达成这一目标。这个过程允许你在不担心模型中其他变量的影响下了解到每个自变量所扮演的“角色”。
你如何控制回归中的其他变量
回归分析美丽的一面是你仅仅只要把自变量包含在模型中就能使他们保持恒定！让我们来举个例子看看。
最近的一项研究分析了咖啡的摄入量对死亡率的影响。最初的结果表明更高的咖啡摄入量与更高的死亡率相关。然而，喝咖啡的人往往吸烟，研究人员却没有把吸烟纳入其初始模型中。在他们把吸烟纳入模型后，回归结果表明咖啡摄入量降低了死亡风险，而吸烟增加了死亡风险。这个在保留另一个变量不变时孤立了每个变量的“角色”。你可以在控制吸烟的同时评估咖啡摄入的效果，也可以在查看吸烟效果的同时方便地控制咖啡的摄入量。
注意，这项研究还说明了排出一个相关变量如何造成误导性结果。忽略一个重要的变量会导致它不受控制，并且可能使包含在模型中的变量的结果产生偏差。这一问题尤其适用于观察性研究（observational studies），在这些研究中，遗漏变量的影响可能是不平衡的。另一方面，在真实实验中，随机化过程倾向于平均分配这些变量的影响，从而减少了遗漏变量偏差（这就是所谓的，random assignment of treatment）。
如何解释回归结果
用回归分析回答问题时，首先要调整并检验你的模型是否正确。然后，查看回归系数和P值。当P值很低时（通常<0.05），自变量在统计学上显著。该系数代表了在控制其他自变量的情况下，一单位给定自变量的变化引起因变量的平均变化程度。
假设因变量是收入，自变量包含智商和教育（以及其他相关变量），你会看到这样的输出结果：
什么时候应该使用回归分析？控制变量意味着什么？
此表中的P值都小于0.05，这表明教育和智商都是统计学上显著的。智商的系数表明，智商每增加一个点，收入就会平均增加大约4.80 。此外，在保持其他变量不变的情况下，附加的教育单位平均收入增加了24.22。
回归分析是推理统计的一种形式。P值有助于确定你在样本中观察到的关系是否也存在于更大的总体中。
获得可信赖的回归结果
在使用回归所产生的巨大功力时也带来了很大的责任。很抱歉，但这就是事实。为了获得可以信任的回归结果，你必须做到如下几条：
• 确认正确的回归模型。就像我们所看到的，如果你没有把所有重要的变量纳入模型，结果就会有偏差。
• 检查你的残差图。确保你的模型恰当地拟合了数据。
• 自变量之间的相关性被称为多重共线性。如我们所见，一些多重共线性是可以的，然而，过多的多重共线性可能会导致问题。
使用回归分析给予你一种能区分复杂研究问题影响的能力。你可以通过对所有相关变量进行建模和控制来解开这种像意大利面一样复杂的关系，然后评估每个自变量所扮演的“角色”。
Reference: https://statisticsbyjim.com/

拓展性阅读：

关于一些常用数据库，各位学者可以参看如下文章：1.这40个微观数据库够你博士毕业了；2.中国工业企业数据库匹配160大步骤的完整程序和相应数据；3.中国省/地级市夜间灯光数据；4.1997-2014中国市场化指数权威版本；5.1998-2016年中国地级市年均PM2.5；6.计量经济圈经济社会等数据库合集(在社群里)；7.中国方言,官员, 行政审批和省长数据库开放；8.2005-2015中国分省分行业CO2数据；9.国际贸易研究中的数据演进与当代问题；10.经济学研究常用中国微观数据手册；11.疫情期Wind资讯金融终端操作指南；12.CEIC数据库操作指南；13.清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨！14.金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS，15.EPS最新版本使用手册，16.疫情期计量课程免费开放！面板数据, 因果推断, 时间序列分析与Stata应用。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。
2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

什么时候应该使用回归分析？控制变量意味着什么？

猜你喜欢