(六)评分卡知识查漏补缺

(六)评分卡知识查漏补缺

  • 制作评分卡时候,做变量相关性应该在哪一个步骤?

在变量WOE编码之后,因为变量可能在WOE编码前存在相关性,不过编码过后就不存在相关性了;同理有一些变量在WOE编码前不相关性,但是WOE编码后相关了,所以做变量相关性分析,在WOE编码过后,带入模型之前合适

  • IV值是越高越好吗?

一帮来说,变量IV小于0.02就不要带入模型了,但是IV>1.2过高,这个变量可能存在问题

  • 缺失值在什么比例可以直接剔除?

缺失值一般在千分之一、万分之一可以直接剔除,否则可以使用SMOTE方法补缺

  • 评分卡变量挑选使用什么方法好?

变量挑选方法有IV、LASSO、AIC方法,三种方法只用一种即可,不要混用,评分卡模型IV方法挑选变量最佳

  • 评分卡样本好坏样本最大比例是多少才不失衡?

一般好坏样本不要超过20:1

  • 分箱

分箱里面不能全是好客户或者全是坏客户,否则不能计算WOE

连续型变量可直接分箱

类别型变量:

(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱

(b)当取值较少时:

       (b1)如果每种类别同时包含好坏样本,无需分箱

       (b2)如果有类别只包含好坏样本的一种,需要合并

  • 卡方分箱优化建议

当变量取值大于100时候,我们可以先进行一个粗糙的等频分箱,加快程序运行速度

  • 评分卡模型在什么阶段会变量挑选呢?

WOE后编码,单变量IV值过低可以剔除(IV值自己可以定,一般0.02)

WOE后编码,变量与变量之间的关联性,使用皮尔逊系数来检验(可以定一个皮尔逊值,大于这个值,两个变量选择IV高的那个;IV无太大差别,变量数值比较多的,这样分数更有层次性)

WOE后编码,变量的多重共线性,用VIF指标来衡量(一般VIF小于10则没有问题)

逻辑回归后,变量的P值不显著,也要剔除(注意,每剔除一次要重新进行逻辑回归,重新算剩下变量对应的P值和系数)

  • 假如训练集分箱后,遇到的测试集的值不存在任何一个分箱,怎么处理?

依照该变量分箱最差情况考虑

  • 为什么申请评分卡一定要使用WOE编码?

WOE编码能反映出组和组之间的差距和我们分箱初衷一样,使用箱与箱之间差距大,箱内差距小

猜你喜欢

转载自blog.csdn.net/LuYi_WeiLin/article/details/87697864