金融风控实战之 Python 评分卡建模

当下金融科技是机器学习应用最火的业务场景之一,风控算法工程师需求旺盛,既能深耕“风控业务”外功,又能兼修“机器学习”内功的算法工程师市场稀缺。

互利网上较多风控建模教程均采用国外陈旧数据集,早已脱离国内当前实际信贷业务,建模意义不大。因此,本 Chat 不采用 LendingClub、GermanCreditRisk 等国外信贷数据集。本Chat 采用数据源为本人时任某平台风控总监时的某年度真实信贷数据,配套教学代码为已上线稳定运行代码。

为确保数据合规性和使用合法性,已剔除用户四要素等敏感信息,仅保留网络公开爬虫数据和三方数据等部分业务指标,且关键变量均已做脱敏处理。为保证代码不涉及泄露商业机密,仅展示例如分箱、WOE、IV等核心函数coding,不影响建模整体理解。以上数据、指标、代码,仅用于当前评分卡教学中,特此说明。

本场 Chat 主要内容有以下6点:

  1. 消费金融评分卡业务,其常用数据源有哪些?评分卡模型一般会用哪些指标?什么是特征工程?如何做好金融申请评分卡的特征工程?

  2. 评分卡变量怎样进行分箱?为什么变量需要进行分箱?常用的分箱方法如:等频分箱、等宽分箱、卡方合并分箱、best基于决策树的最优分箱,他们的分箱概念分别是什么?他们之间分别有怎样的优点和缺点?

3、什么是WOE和IV?WOE和IV背后的业务本质是什么?WOE和IV的计算方式是怎样的?

4、评分卡背后包含怎样的数学含义?怎样通过推导LR公式快速理解评分卡的精髓?

5、集成模型和评分卡模型结果之间如何转换?怎样通过数学公式的推导,将集成模型转化成分数输出?

6、模型结果怎样进行评估?怎样用“大白话”去理解KS和AUC值的含义?

阅读全文: http://gitbook.cn/gitchat/activity/5cfe6073e096977d1d957281

一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看

猜你喜欢

转载自blog.csdn.net/valada/article/details/91907549