2018-4-25个人征信

业务梳理

得到每个用户的违约概率(信用评分)

目标变量:用户的违约概率

数据清洗

关联相关表

使用mysql将导入txt数据并且进行合并。

压缩数据

bank_detail 和 bill_detail 和 用户浏览行为表 不能直接进行关联,目前的想法,将这两张表的信息分别压缩到每个 user_id 上。

bank_detail 每个用户的信息压缩为:工资收入、工资外收入、净资产

####将txt文件导入数据库中####
use test

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bank_detail_train.txt" 
into table bank_detail
  fields terminated by ',';
select count(*) from bank_detail;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bill_detail_train.txt" 
into table bill_detail
  fields terminated by ',';
select count(*) from bill_detail;


load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\browse_history_train.txt" 
into table browse_history
  fields terminated by ',';
select count(*) from browse_history;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\loan_time_train.txt" 
into table loan_time
  fields terminated by ',';
select * from loan_time;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\overdue_train.txt" 
into table overdue
  fields terminated by ',';
select * from overdue;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\user_info_train.txt" 
into table user_info
  fields terminated by ',';
select * from user_info;

时间戳无法在mysql中最大为2030年,数据中的时间戳超过了这个时间范围。可以在r中将时间戳转换。

as.POSIXct(5894316387, origin = "1960-01-01", tz = "GMT")  

信息汇总

我们的目标是将所有的信息汇总到每一个用户,定义关于用户的衍生变量。

建立模型

logistic模型

解释模型

猜你喜欢

转载自www.cnblogs.com/shgwater/p/8955093.html
今日推荐