信用风险评分卡研究-第2章笔记

变量类型：
1、原始变量：这些变量是从数据库中提取的，概括了交易、产品所有权标识和客户人口统计资料待特征；特点：易于解释，但是可能不是最有效的；
2、衍生变量指标：这些字段来源于原始变量，有明确的业务涵义。特别：需要计算，可能表现出比原始变量更好的预测力；
3、分析变量：这些变量是分析人员对原始数据进行转换和计算加工而生成的具有较高的预测能力的变量。

分析变量与衍生业务指标的区别就在于缺少简单或清晰的含义。
在很多企业，并没有区分分析变量和衍生业务指标，它们都被称为分析变量或建模变量；

数据准备过程的目的是准备建模视图或数据挖掘视图。
建模视图包含以下变量：
1、记录标识（ID变量）；
2、候选自变量；
3、描述变量；
4、报告变量；
5、违约状态字段；

建模视图中包含的自变量可以分为如下三种类型：
1、名义变量：假设没有顺序关系、也没有数量关系；这些变量的值不能进行数学运算；如客户居住状态是没有数量和顺序概念；
2、顺序变量：也称排名变量，在期类别中定义了顺序概念的变量；如：居住时间长短；
3、连续变量：也被称为取值表示真实数量规模的真正指标；如账户余额；

数据来源：
1、人口统计特征；
2、征信机构数据和外部评分；
3、交易记录：提供两种类型数据：频率和汇总值；用于汇总数据的典型时间窗口分别是一、三、六和十二个月；
4、其他产品的所有权和使用记录；

建模和实施窗口
行为评分卡是用特定时间段的建模视图数据开发的。这个时间段被称为建模窗口。建模窗口的长度可以从几个月到几年；取决于客户群的特征和行为的变化率。
评分卡开发之后，预期会在一定的时间段内实施。这个阶段被称为实施窗口。类似于建模窗口，实施窗口的长度取决于评分总体的变化率。在信用卡申请中，典型的实施窗口在一年到三年之间；

数据校准：
行为评分卡开发中使用的变量在开发窗口的时间跨度内收集并进行校准。而且，对这些变量进行的任何计算都应该使用同样的时间窗口。然后，对违约状态变量和某些汇总或描述统计量的计算可以在这些时间因素的基础上进行。

数据合并：
1、连续变量
2、名义变量和顺序变量

数据整合
1、合并
2、联结
3、数据步或PRCO SQL;

完整性检验
1、行级的唯一性
2、范围和取值
3、缺失值

信用风险评分卡研究-第2章笔记

猜你喜欢