（六）评分卡知识查漏补缺

在变量WOE编码之后，因为变量可能在WOE编码前存在相关性，不过编码过后就不存在相关性了；同理有一些变量在WOE编码前不相关性，但是WOE编码后相关了，所以做变量相关性分析，在WOE编码过后，带入模型之前合适

一帮来说，变量IV小于0.02就不要带入模型了，但是IV>1.2过高，这个变量可能存在问题

缺失值一般在千分之一、万分之一可以直接剔除，否则可以使用SMOTE方法补缺

变量挑选方法有IV、LASSO、AIC方法，三种方法只用一种即可，不要混用，评分卡模型IV方法挑选变量最佳

一般好坏样本不要超过20:1

分箱里面不能全是好客户或者全是坏客户，否则不能计算WOE

连续型变量可直接分箱

类别型变量：

（a）当取值较多时，先用bad rate编码，再用连续型分箱的方式进行分箱

（b）当取值较少时：

（b1）如果每种类别同时包含好坏样本，无需分箱

（b2）如果有类别只包含好坏样本的一种，需要合并

当变量取值大于100时候，我们可以先进行一个粗糙的等频分箱，加快程序运行速度

WOE后编码，单变量IV值过低可以剔除（IV值自己可以定，一般0.02）

WOE后编码，变量与变量之间的关联性，使用皮尔逊系数来检验（可以定一个皮尔逊值，大于这个值，两个变量选择IV高的那个；IV无太大差别，变量数值比较多的，这样分数更有层次性）

WOE后编码，变量的多重共线性，用VIF指标来衡量（一般VIF小于10则没有问题）

逻辑回归后，变量的P值不显著，也要剔除（注意，每剔除一次要重新进行逻辑回归，重新算剩下变量对应的P值和系数）

依照该变量分箱最差情况考虑

WOE编码能反映出组和组之间的差距和我们分箱初衷一样，使用箱与箱之间差距大，箱内差距小