客户流失预警分析(2018-07-30)

判定客户是否流失的标志
  1.到期之后,不在续约。
  2.未到期,但是不在使用。
  通常来说老客户的流失带来损失更严重。
分析方法
  1.经验模型。
  2.从数据中学习,机器学习。
分析流程
  1.数据整合
  2.数据加工处理
  3.数据特征工程
  4.训练流失模型
  5.验证流失模型
  6.应用流失模型
机器学习算法分类
 1.有监督学习
  学习样本中有结果标记
 2.无监督学习
  学习样本中无结果标记
常见的分类模型
 决策树
  归纳分类算法
    像是在回答一系列的问题,不同答案将导向不同的分支,最终得到一个分类结果。
 如何构建决策树
  1.准备工作
    明确自变量和因变量,确定信息度量的方式,确定终止条件
  信息熵:
这里写图片描述
  2.选择特征
    信息增益
这里写图片描述
  3,如何构建一个决策树
   1.选择当前的最佳特征
   1.计算整体的熵。
   2.计算每个属性的熵。
   3.计算信息增益,就是整体的熵减去每个属性的熵,就是个各个属性的信息增益。
   4.选择信息增益最大的作为第一特征。
   5.判断是否满足终止条件
   2.重复筛选,选择第二级特征,判断是否满足终止条件。
决策树算法总结
 ID3(Iterative Dichotomiser 3, 迭代树三代)
   核心是信息熵,根据信息增益决定树的节点
 存在的问题是:
   信息度量不合理:倾向于选择取值多的字段
   输入类型单一:离散型
   不做剪枝,容易过拟合
 C4.5: 和ID3相比的改进:
   用信息增益率代替信息增益
   能对连续属性进行离散化,对不完整数据进行处理
   进行剪枝。
 C50:C4.5相比的改进:
   使用了boosting
   前修剪,后修剪。
 CART(Classification and Regression Tree)
   核心是基尼系数
   分类是二叉树
   支持连续值和离散值
   后剪枝进行修剪
   支持回归,可以预测连续值。
集成学习
 针对同一数据集,训练多种学习器,来解决同一问题。
   Bagging:
    有放回抽样构建多个子集
    训练多个分类器
    最终结果由各分类器结果投票得出
    实现很简单
   Boosting
    重复使用一类学习器来修改训练集
    每次训练后根据结果调整样本的权重
    每次学习器加权后的线性组合即为最终结果。
   Stacking
    由两级组成,第一级为初级学习器,第二级为高级学习器,
    第一级的输出作为第二级的输入。

猜你喜欢

转载自blog.csdn.net/qq_33121481/article/details/81293356