信用评分模型简介

1、信用评分模型出现的动机是什么?

  我们去银行借款的时候,他们往往都会看我们的一些个人信息,比如,年龄,收入,家庭状况,工作单位,婚姻状况等,也会设置一些门槛,只有满足了一定的门槛才会贷款于你。但是这种对单个指标设置的门槛会存在一些问题,比如:
(1)有些借款人虽说一些条件不满足,但是其他条件都很好
(2)如何利用零散、非结构化的信息整合成科学的核额体系是一个难题
(3)贷后管理、资产质量分析和风险定价需要可量化的数字评价体系支持
  这样,一种信用评分就应运而生,解决了以上难题。具象的个体风险被标准化,分数的存在使得审批有了最简单易用的判断标准;整体的信贷资产质量也有了量化指标

2、信用评分的业务定义

 信用评分表面上是一个分数,实质上是一个模型。模型只是我们解决问题的手段,解决业务问题才是我们的目的。
 信用风险计量体系包含主体评级模型和债项评级模型,主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型现金流融资模型项目融资模型等。
 我们通常所接触到的评分大都用于信贷审批,即申请评分卡(A卡,Application scorecard)。同时,业内还常用的有B卡(Behavior scorecard)和C卡(Collection scorecard),分别用于贷后管理及催收管理。
 其中,它们的使用场景不同的:
A卡又称为申请者评级模型,是使用最广泛的,用于贷前审批阶段对借款申请人的量化评估;
B卡又称为行为评级模型,主要任务是通过借款人的还款及交易行为,结合其他维度的数据预测借款人未来的还款能力和意愿
C卡又催收评级模型,是在借款人当前还款状态为逾期的情况下,预测未来该笔贷款变为坏账的概率,由此衍生出滚动率、还款率、失联率等细分的模型;
F卡有称为欺诈评级模型,主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理。
 不同的评分卡,对数据的要求和所应用的建模方法会不一样。

 不同的产品,评分标准也不尽相同,评分模型也不相同。比如,对于小额短期利率高的现金贷来说,逾期30天+已经非常严重,催回的可能性非常小,那么相对应的模型会界定M1以上客户为坏客户。但对于车辆抵押贷款的借款人来说,考虑到抵押物,还很有可能还款,所以我们可能会选择界定M2甚至M3以上的客户为坏客户。所以,在做模型的时候,也要思考当下的模型与当前的业务模式的匹配程度。

3、信用评分模型的建立

(1)准备数据
 准备一个足够大的数据样本,并且样本的特征数也尽量多些
(2)数据处理
 从生产环境导出的数据往往并不完美,有大量影响分析的缺失值和异常值。我们需要剔除缺失率太高的变量,剔除按业务逻辑完全不可解释的变量等等。这是一个听起来很简单但实际上需要耗费大量精力的过程,会极大影响到模型准确性。
(3)变量分析
 通过对特征变量的相关性、共线性等的分析,筛选出对预测结果重要的特征,便于后期建模使用。
(4)评分卡构建
 现在我们已经拥有了一些非常“优秀”的变量,那我们怎么利用这些变量得到我们所需要的答案呢?这是一个已知X求Y的问题,我们需要选择一个合适的模型方法去解决和预测。常见的模型方法有线性回归、非线性回归分析、决策树等等。
其中,逻辑回归是在信用评分卡开发中非常有代表性的模型方法。在这个模型中,经过上述筛选的每一个变量会进行证据权重转换(WOE 即 Weight of Evidence),逻辑回归可以将我们所熟知的借款人特征转化为一个标准的评分卡,当我们输入这些变量的具体值的时候,可以得到相应的分数。

4、信用评分卡的评估指标

 一般来说,信用评分卡模型的评估指标可以分为两类:
(1)预测能力指标,用于评估模型对违约事件的预测能力,如:WOE/IV、ROC/AUC、K-S指标、GINI系数等
(2)稳定性指标,用于评估模型在训练样本和测试样本中预测能力的一致性,如PSI指标等
 下面对一些指标进行解释一下:
1.WOE、IV暂略
2.ROC、AUC曲线
 首先先了解一些混淆矩阵的知识:
TP(True Positive):将正类样本预测为正类,即真阳性
FP(False Positive):将负类样本预测为正类,即假阳性
TN(True Negative):将负类样本预测为负类,即真阴性
FN(False Negative):将正类样本预测为负类,即假阴性

则精准率(Precision)$ P = \dfrac {TP} {TP+FP} $ -----可以理解为从结果看,在所有预测为正类的样本里,预测正确的占比
召回率(Recall)$ R = \dfrac {TP} {TP+FN} $ -----可以理解为在原始的正类样本中,被预测正确的样本的占比

假阳性率(False Positive Rate)$ FPR=\dfrac {FP} {N} $----其中N为样本中负样本的个数

真阳性率(True Positive Rate)$ TPR = \dfrac {TP} {P} $----其中P为样本中正样本的个数

举个例子
 假设一个医院有10位疑似癌症患者,其中有3位很不幸确实患了癌症(P=3),另外7位不是癌症患者(N=7),医院对这10位疑似患者进行诊断,诊断出3为癌症患者,其中有2位是真正的患者(TP=2),那么真阳性率为\(TPR = \dfrac {TP} {P} = \dfrac 2 3\),对于七位非癌症患者而言,有1位很不幸被误诊为癌症患者(FP = 1)。
那么假阳性率为\(FPR = \dfrac {FP} {N} = \dfrac 1 7\),那么对于“医院”这个分类器来说,这组结果就对应ROC曲线上的一个点\((\dfrac 2 3,\dfrac 1 7)\)

 AUC曲线就是ROC曲线下方的面积大小,该值能够量化地反映出基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC曲线横轴做积分就可以了。由于ROC曲线一般都在曲线\(y=x\)的上方,因此AUC的值一般都在0.5--1之间,AUC值越大,说明分类器越可能把真正的正样本排在前面,分类性能就越好。

猜你喜欢

转载自www.cnblogs.com/xiaoma927/p/9779041.html