ML笔记 - 回归模型诊断之违背基本假设

版权声明:本文为博主原创文章,可以转载,但请添加原文链接。 https://blog.csdn.net/hwhsong/article/details/83794444

在回归模型中,常见违背基本假设的情况有异方差、自相关和异常值。

异方差

回归模型中的异方差是指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。

由于不满足回归分析中的同方差的前提假设,异方差将可能带来以下问题:

  • 对使用最小二乘法求解参数时,参数估计值虽然无偏,但是不是最小方差线性无偏估计。
  • 参数的显著性检验失效。
  • 回归方程的应用效果不理想。

造成异方差的常见原因:

  • 模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中。
  • 模型本身选取有误,比如原本是非线性的,结果使用了线性模型。
  • 其他原因,包括但不限于:
    • 样本量过少
    • 测量误差
    • 异常数据
    • 时序分析或使用面板数据等

异方差的检验:

  • 残差图分析
  • 等级相关系数法,又称斯皮尔曼检验
  • 相关图分析
  • Park检验与Gleiser检验
  • Goldfeld-Quandt检验
  • Breusch-Pagan检验
  • White检验

消除异方差的方法:

  • 加权最小二乘法
  • BOX-COX变换法
  • 方差稳定性变换法等

自相关

回归模型中的自相关是指随机误差项的协方差,即变量前后数值之间存在相关关系。

由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:

  • 对使用最小二乘法求解参数时,参数估计值虽然无偏,但是OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量。
  • OLS估计量的方差是有偏的。
  • 显著性检验失败,包括t检验和F检验。
  • 存在序列相关时,最小二乘估计量对抽样波动非常敏感。
  • 回归方程的应用效果不理想,会带来较大的方差甚至错误。

造成自相关的常见原因:

  • 模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性。
  • 错误的回归函数形式。
  • 蛛网现象。
  • 对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换。

自相关的检验:

  • 图示分析法
  • 自相关系数法
  • DW(Durbin-Watson)检验法等

消除自相关:

  • 迭代法
  • 差分法
  • BOX-COX变换法

异常值

回归分析中,一些异常或者极端的观测值可能会引起较大的残差,进而影响回归拟合的效果。

异常值成因:

  • 数据录入错误
  • 数据测量错误
  • 数据随机误差
  • 缺少重要自变量
  • 缺少观测数据
  • 存在异方差
  • 模型选择错误

消除方法:

  • 重新核实数据
  • 重新测量数据
  • 删除或者重新观测数据
  • 增加相应自变量
  • 增加观测数据
  • 消除异方差,如加权回归等
  • 更改模型,如改成非线性回归

猜你喜欢

转载自blog.csdn.net/hwhsong/article/details/83794444
今日推荐