浅谈信贷评分卡模型

毕竟进入了金融安全这个坑，基本的信贷评分卡模型还是需要知道的，今天就综合各个方面的资料来讲解一下在信贷领域使用的最多的评分卡模型。

整体来说，评分卡是信用风险评估领域的常用建模方法（刚开始是运用在信贷领域，后来这种思想被广泛地扩展到其他的领域：反欺诈，支付宝信用评估等）。这其实是一种很古老的概念了，大约在18世纪出现了信用卡的雏形，有了信用卡就需要对申请信用卡的人进行信用评估，因此自然而然的就有了信用评分机制，不过刚开始的信用评分机制基本采用的都是专家经验的方式，由人工根据经验对每一项申请人的条件进行分值评定。

显然，人工的方式缺乏科学性，随着人工智能时代的到来，机器学习方法也被应用到了评分卡场景中来。现在我们再讲到评分卡模型，其实大部分都暗示了是应用了机器学习策略的评分卡生成方式。需要强调的是，评分卡并不是简单地对应于某一种机器学习算法（虽然现在在评分卡应用场景中LogisticRegression是用的最多的算法），而是一种通用的建模框架，将原始数据通过分箱后进行特征工程变换，继而应用于线性模型进行建模的一种方法。
下面是使用机器学习方法来进行评分卡模型的生成过程：
这里写图片描述

之所以要使用评分卡模型这种方式，一方面是因为其效果确实好，更关键的一点是其具有比较好的可解释性，可以很方便业务专家对模型进行把控。因此对于一些连续性特征首先要进行的就是分箱（离散化）处理。其中等频和等宽分箱比较好理解，这个自动分箱就是让模型自动地选出最合适的离散化方式，其实用的就是对应IV(information Value)值的划分方式，说到IV值就不得不提到WOE，下面就来介绍一下这两个概念。
$WOE_i=In(\frac{P_{good}}{P_{bad}})$
$IV=\sum_{i=1}^N(P_{good}-P_{bad})*WOE_i$
从中可以看出，IV其实就是WOE的加权求和
所谓 $WOE_i$ 的下标i就指代了某一连续特征中的第i个分段位的WOE值
其中一种分段方式即WOE的计算方式如下所示：
这里写图片描述

其中关于IV值的相关描述如下所示，值越大代表特征和目标的相关性越强：
这里写图片描述

下面就来讲解一下评分卡具体的计算方法：
定义 $odds=\frac{p}{1-p}$
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。公式如下：
$score_{total}=A+B*In(odds)$
设定比率为 $\theta_0$ 的特定点分值为 $P_0$ ，比率为 $2\theta_0$ 的点的分值为 $P_0+PDD$ ，带入上式就可以很方便的求出A和B值。

一般来说我们会用Logistic Regression来表征对于P值的估计，公式如下：
$P=\frac{1}{1+e^{-\theta^T x}}$
则有 $odds=In(\frac{p}{1-p})=\theta^T x$
故有 $score_{total}=A+B*(\theta^T x)=A+B*(w_0+w_1x_1+....w_nx_n)=(A+B*w_0)+B*w_1x_1+....+B*w_nx_n$
其中A和B在之前的布置中已经计算出来了， $x_n$ 是特征数据的WOE编码，最终转化生成的评分卡形式如下所示：
这里写图片描述
这样来了一个用户申请之后，就可以根据评分卡得出最终用户的信用得分，进而决定是否是否接受该用户的借贷申请。
需要注意的是，上面这种做法只是一种经典的做法，但不是唯一的做法。比方说对于同一变量 $x_1$ ，它的不同的WOE可以对应不同的w系数。同时不一定采用WOE编码（只不过这种编码方式在信贷评分场景中更常用），还有很多种其他的编码方式可以选择，比方说one-hot编码等。

同时可以扩展的是，不一定要针对全部的用户用一张评分卡模型，可以按照类似决策树的方式对用户进行分类，针对每一个子类的用户生成一份具有针对性的评分卡模型。如下所示：
这里写图片描述

还有最后一个额外的扩展点，有时候往往因为业务的需要，我们需要对这些系数 $w_1$ , $w_n$ 的大小做一个限制（往往业务专家希望对应WOE值大的变量的变量所对应的系数 $w$ 也要大一些），这就要求在进行模型训练的时候采用相应的策略：
无约束的优化算法：SGD，Newton Method，L-BFGS
有约束的优化算法：Barrier Method，SQP(Active Set Method)

浅谈信贷评分卡模型

猜你喜欢