前言

在传统的信用风险预测的模型中，主要依靠的是人的主观经验判断，不够客观，很容易形成一种情况,在这个金融机构评分高，但是去其他金融机构评分较低，差异性较大。这样就不利于对个人或企业的信用风险预测不够统一，难以适应大数据时代的到来。并且过去的模式对人的要求极高，但随着大数据时代的到来和信用风险的种类不断增加，过往的信用评分模型会造成较大的误差。比如：过往贷款审批的时候，审批人手中所掌握的“工具”是一些零散的信息，比如借款人的工作单位，婚姻状况，或者大概一个月的收入是多少。常规的做法是，根据这些维度设定一个门槛标准，只要这个借款人的每个维度都满足这些条件，就准予通过。这种做法会有一些问题：

有的借款人虽然不满足某一些门槛条件，但可能另外一些条件特别优秀，单维度的强拒绝规则造成审批效率低下；如何利用零散、非结构化的信息整合成科学的核额体系是一个难题；贷后管理、资产质量分析和风险定价需要可量化的数字评价体系支持。相应的，信用评分帮助解决了以上大部分问题：具象的个体风险被标准化，分数的存在使得审批有了最简单易用的判断标准；整体的信贷资产质量也有了量化指标。
这个系列主要就是来探讨如何进行信用评分的预测模型。

”信用评分解决了生产效率的问题，也解决了生产标准化的问题“
——陈建，《现代信用卡管理》作者，现任Fair Isaac公司的亚太区技术方案总监

一、数据准备

1.文章所使用的数据都是基于下面这两个网站：

http://www.idatascience.cn/dataset
http://www.ics.uci.edu

所选取的数据是信用卡流失。总样本数量有22000+。

2.观察期和表现期

观察期→评分节点→表现期→用户申请时间
1.观察期：是变量采集期，用以采集变量数据，获取各类特征信息的时期，通常为1-3年。
2.表现期：是样本预测期，用以判断样本是否触发负面样本的条件，通常为0.5-1年。

用图来展示：
在这里插入图片描述
注意以下要点：

观察期是相对于观察点来变动的，是相对的概念。
观察点和观察期是衍生x变量的时点或时期，所有的衍生变量要只能在此时间点和此时间点之前生成，不能使用此时间点之后的信息，否则就会产生使用未来信息的情况。也就是说观察期和观察点之前的数据是一个过去式。客观存在的，也符合计量经济学中对数据的要求，真实，完整，可比较。
表现期需要有足够的长度，不能够太短，从而保证样本群体分类的稳定性，使账户/客户的行为充分表现出来
表现期和表现点是定义y变量的时期，这个y变量具体是什么，取巨额月分析角度。

如以下例子：
贷款申请时间为2023年1月 1日（假设观察期为3年，表现期为1年）

观察点： 2022年 1月1日

观察期： 2019年1月 1日到2021年12月 31日（输入变量：用以识别信用风险的变量）

表现期： 2022年1月 1日到2022年12月 31日（输出变量：是否违约）结论，模型生效之日就会进入识别能力的衰减期，注意防控模型失效风险。

二、数据处理

1.缺失值和异常值

由于数据或多或少都会出现空缺值和异常值，会对整体数据有一定的影响，需要在数据预处理阶段将数据整理好，如空缺值填充或删除，异常值剔除，数据标准化。

2.筛选数据

所收集的数据会有较多不符合要求的数据，需要我们去筛选，这取决于操作者的个人能力和个人经验。

三、相关性检验

单变量分析，如应用统计学方法筛选出预测能力较高的变量，获取自变量中对违约状态影响最显著的指标。经过筛选的变量将进入信用评分模型。再比如需要分析变量的分布是否大致呈正态分布，才能够满足后续分析的条件。这部分的分析可以利用聚类或AHP分析。
变量之间相关性的分析，如两两之间的相关性：pearson、spearman、kendall等、VIF多重共线性。如果变量之间相关性显著，会影响模型的预测效果。

四、特征工程

1.特征变量

特征工程是一个包含内容很多的主题，也被认为是成功应用机器学习的一个很重要的环节。如何充分利用数据进行预测建模就是特征工程要解决的问题！ “实际上，所有机器学习算法的成功取决于如何呈现数据。” “特征工程是一个看起来不值得在任何论文或者书籍中被探讨的一个主题。但是他却对机器学习的成功与否起着至关重要的作用。机器学习算法很多都是由于建立一个学习器能够理解的工程化特征而获得成功的。”——ScottLocklin，in “Neglected machine learning ideas”

数据中的特征对预测的模型和获得的结果有着直接的影响。可以这样认为，特征选择和准备越好，获得的结果也就越好。这是正确的，但也存在误导。预测的结果其实取决于许多相关的属性：比如说能获得的数据、准备好的特征以及模型的选择。所以在建模前，我们需要先看看各变量的影响大小。

【信用评分预测模型（一）】信用评分预测模型简介

文章目录

前言

一、数据准备

1.文章所使用的数据都是基于下面这两个网站：

2.观察期和表现期

二、数据处理

1.缺失值和异常值

2.筛选数据

三、相关性检验

四、特征工程

1.特征变量

五、模型构建

1.随机森林模型

2.决策树模型

3.AHP分析

总结

猜你喜欢