特征工程:
-
一 定义问题
-
基本统计分析
-
工具选择
-
-
建模分析(选择算法)
-
监督/无监督
-
监督
-
分类
-
回归
-
-
-
-
算法确定下来之后
-
数据预处理
-
特征衍生
扫描二维码关注公众号,回复: 12687420 查看本文章 -
特征选择
-
-
风控建模的时候需要注意
-
信用评分分段之后,正常的效果,评分和预期的概率应该是单调的
-
按照评分进行分组
-
评分越高的组,坏人的概率应该更低
-
-
如果评分和预计的概率不是单调的,模型时有问题的
-
模型人群分布的稳定性
-
在业务没有变化的前提下,间隔一段时间,在同一分段的人群总数占全体用户的比例,应该不会有大的波动
-
-
-
跨时间验证
-
上线之前 需要用最近时间的数据对模型进行评估
-
训练模型的时候 最近两个月~6个月的数据 是不会用来训练模型
-
-
正常的信贷业务 坏账率 合理比例 低于5%
-
B卡 贷后管理 用户注册数据 从三方购买的,如果半年之内 没有新的操作
-
从不同渠道买来的评分数据 有效期半年
-
用户第一次来的时候 个人用户的数据不全,需要从其它合作方购买 同盾
-
特征衍生:
-
利用数值量的统计值做特征衍生
-
如果一个用户(id)在数据集中有多条记录,可以根据这个id做分组,获取当前id对应的所有记录,对这些记录求
-
平均值
-
标准差(方差)
-
求和
-
求最大/最小
-
极差
-
计算条目数量
-
-
数据处理-》特征衍生-》特征选择
-
模型融合思路
-
训练两个模型
-
MSE 在误差比较大的情况下 损失比MAE的惩罚更严重
-
误差平方求平均
-
-
MAE
-
误差绝对值求平均
-
-
误差比较大的时候 更多的用MSE的结果放到最终的模型中
-
误差比较小的时候 用MAE
-
-
-
特征衍生
-
如果是多个分类特征 类别的值都是0,1 通过相乘做特征交叉
-
特征相除 需要注意避免除0的异常 分母+1
-
df_data['话费稳定'] = df_data['用户账单当月总费用(元)'] / (df_data['用户当月账户余额(元)'] + 1)
df_data['相比稳定'] = df_data['用户账单当月总费用(元)'] / (df_data['用户近6个月平均消费值(元)'] + 1)
df_data['缴费稳定'] = df_data['缴费用户最近一次缴费金额(元)'] / (df_data['用户近6个月平均消费值(元)'] + 1)