关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

凡是搞计量经济的,都关注这个号了

邮箱:[email protected]

所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

注:关于变量选择,仍然需要区分变量到底是用来做模型预测的还是做模型估计的,模型预测与模型估计的区别决定了变量选择的标准。
误解1:“模型中的变量数量应该减少,直到变量平均事件发生数为10。”

不!
注:当结果变量是二元的时候,事件数是结果变量=1的数量和结果变量=0的数量两者中较小的那个。EPV(events per variable,变量平均事件发生数)为事件数除以在建立模型时考虑的控制变量数;严格地说,它是事件数除以模型中自由度。

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

误解2:“只有那些在单变量回归模型中具有显著性的变量才应该包含在多变量回归模型中。”
不!
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

误解3:“不重要的控制变量应该从模型中剔除去。”
不!
从模型中剔除一个变量意味着将其回归系数设置为零——即使根据数据,它最有可能得到的系数值并不如此。这样,一个人就偏离了最大似然解(它有理论基础),报告了一个无意中处于次优状态的模型。剔除模型中的弱影响变量也可能是危险的,因为在实证研究中,错误地遗漏掉一个重要的混杂因素可能导致估计偏倚。这是因为回归系数通常取决于模型中的其他变量,因此,如果模型中遗漏了其他变量,它们的系数估计值就会发生改变。这个“估计中的变化”可以是正的,也可以是负的,也就是说,远离或接近于零。因此,可能在消除一个潜在的混杂因素后,另一个调整变量的系数接近于零,从“显著”变为“不显著”,从而导致在后面的步骤中剔除掉该变量。然而,尽管它通常对估计偏误有不利影响,从模型中消除影响效应非常弱的控制变量有时可以减少剩余回归系数的方差(不确定性)。Dunkler等人提出了“增强后向剔除法(augmented backward elimination)”,这是一种选择算法,如果剔除他们会导致对另一个变量的估计发生变化,则该选择算法会在回归模型中留下那些不显著的变量。因此,他们的建议扩展了纯粹基于“显著性”的变量顺序剔除法(“向后剔除”)
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

误解4:“报告的p值量化了被错误选择的变量的第一类错误。“
不!
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?
误解5:“变量选择简化了分析。“
不!
关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

关键点

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

Heinze G, Dunkler D. Five myths about variable selection. Transpl Int. 2017 Jan;30(1):6-10. doi: 10.1111/tri.12895. PMID: 27896874.
关于这些实证,可以到社群交流,互帮互助互相交流的文化,真好。

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?

关于回归中变量的问题

1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

猜你喜欢

转载自blog.51cto.com/15057855/2688403