R语言27-Prosper 贷款数据分析3

双变量分析

接着对问题贷款的影响因素进行分析,拟推断出易出现问题贷款的人群特征。与此同时探讨借款利率的影响因素:

  • 平台用户信用情况(等级/评分)与贷款状态:
ggplot(aes(x=newLoanStatus,y=creditscore),data = subset(data,!is.na(data$newLoanStatus)))+
  geom_boxplot()+coord_cartesian(ylim = c(600,800))+xlab("Loanstatus")

图1
可以看到正常贷款的客户信用分数较高,且较为集中,问题贷款的信用分数相对较低。

ggplot(aes(x=creditscore),data = subset(data,!is.na(data$newLoanStatus)))+
  geom_freqpoly(aes(color = newLoanStatus),binwidth = 50)+
  scale_x_continuous(limits = c(400, 1000),breaks=seq(400,1000,50))

图2
可以看出信用分数560分以下的用户出现问题贷款的次数大于正常贷款次数。

qplot(x=creditlevel,data = subset(data,!(is.na(data$creditlevel)|is.na(data$newLoanStatus)))
      ,fill=newLoanStatus)+ylab("count")

图3
该图可以看出随着用户信用等级的下降,出现问题贷款的次数也随之增加。从用户信用评分和信用等级两个方面均可以推断出:信用良好的用户中问题贷款少,信用较差的用户中问题贷款出现次数多,与我们的常识认知相符。

  • 房产拥有情况是否影响平台用户信用评分:
ggplot(aes(x=creditscore),data = subset(data,!is.na(data$creditscore)))+
  geom_freqpoly(aes(color = IsBorrowerHomeowner),binwidth = 50)+
  scale_x_continuous(limits = c(400, 1000),breaks = seq(400,1000,50))

图4
可以看出拥有房产的用户普遍信用分数会高于没有拥有房产的用户,650以下无房产用户人数多于有房产用户,750分以上无房产用户人数低于有房产用户。

  • 与问题贷款相关的其它因素分析:
data$IncomeRange <- factor(data$IncomeRange,order=TRUE,levels = c("Not displayed","Not employed","$0","$1-24,999","$25,000-49,999","$50,000-74,999","$75,000-99,999","$100,000+"))

p1 <- ggplot(aes(x=InquiriesLast6Months,fill=newLoanStatus),
             data=subset(data,!(is.na(data$InquiriesLast6Months)|is.na(data$newLoanStatus))))+
  geom_bar(position = position_fill())+scale_x_continuous(limits = c(-1,11))+ylab("Propotion") 

p2 <- ggplot(aes(x=DelinquenciesLast7Years,fill=newLoanStatus),data
             =subset(data,!(is.na(data$newLoanStatus))))+
  geom_bar(position = position_fill())+scale_x_continuous(limits = c(-1,101))+ylab("Propotion")

p3 <- ggplot(aes(x=DebtToIncomeRatio,fill=newLoanStatus),data
             =subset(data,!(is.na(data$newLoanStatus))))+geom_bar(binwidth=0.1,position
            =position_fill())+scale_x_continuous(limits = c(0,1))+ylab("Propotion")

p4 <- ggplot(aes(x=IncomeRange,fill=newLoanStatus),data=subset(data,
            !(data$IncomeRange=="Notdisplayed"|is.na(data$newLoanStatus))))+geom_bar(position=position_fill())+ylab("Propotion")+theme(axis.text = element_text(size = 4.5))

grid.arrange(p1,p2,p3,p4,ncol = 2)

图5
选取可能与问题贷款相关的其它几个参数:借款人收入范围、征信查询次数、过去7年违约次数、信用卡使用百分比、债务收入比及初次借入资金分别进行分析,得到与问题贷款相关性较大的几个因素绘制呈图如上。 1. 过去6个月的征信查询次数:随着查询次数的增加,在其中出现问题贷款的比率逐渐增加; 2. 过去7年的违约次数:违约概率基本呈正相关趋势随次数增加而上涨; 3. 债务收入比:随债务收入比的增加,问题贷款出现可能性逐渐增加; 4. 收入范围:随着收入范围的增加,问题贷款出现几率逐渐降低。

  • 贷款利率与客户信用等级分析: 进一步分析贷款利率与客户信用等级之间的关系
ggplot(aes(x=creditlevel,y=BorrowerRate),
       data =subset(data,!is.na(data$creditlevel)))+geom_boxplot()+
  coord_cartesian(ylim = c(0.06,0.35))+
  stat_summary(fun.y = mean,geom = "point",shape = 4)+
  stat_summary(fun.y = mean,geom = "smooth",aes(group=1))

图6
上图可以看出贷款利率与客户信用等级密切相关,信用等级高的客户,贷款利率低,信用等级低的客户,贷款利率高。

发布了49 篇原创文章 · 获赞 0 · 访问量 728

猜你喜欢

转载自blog.csdn.net/xiuxiuxiu666/article/details/104246756