基于大数据的客户流失预测流程

客户流失预测

客户流失是电信行业最重要的服务方面之一。客户流失的广义说法是因为客户自己或运营商违反服务协议而终止客户服务的行为。然而，客户流失的最主要和最常见的原因是由于客户对运营商的服务不满意或其他运营商提供了更为优惠的价格。目前，中国的手机用户已经接近13亿，固定宽带用户数累计达到2.9亿，随着市场竞争的日益加剧和市场需求的逐渐饱和，客户以更低的价格就可以享受更好的服务，宽带用户发展已经受到越来越大的竞争压力，增量市场发力不足，存量市场流失日趋严重。因此，减少客户流失、延长宽带用户的生命周期，成为当期电信宽带发展的重中之重。

流失预测流程一共分为四个步骤，分别为（1）数据预处理（2）特征选择（3）模型选择（4）模型评估

1.数据预处理（缺失数据、不一致数据、错误异常数据、重复数据）

a)缺失数据（空值）：若缺失值较少的情况，用人工补全缺失值，不过实际环境中易出现大量的空值。若缺失值比较多最简单的方式是将空值直接置0或是一个统一常量，但效果并不理想不建议使用。可以用平均值、众数、中位数等去填充空值。

b)不一致数据：若数据从多个表之间提取可能会存在不一致的情况，例如性别可能一个表是用gender表示一个表是用sex表示。其中性别的值有可能用1或0表示男女，也可能用F和M表示男女。我们需要将它们统一化。

c)错误异常数据：许多外在的原因可能使出现异常值，例如工作人员输入错误、统计口径不同等，都可能出现噪声数据，若不对这些异常值处理的话会影响模型的预测精度。例如年龄当中出现数值小于0的情况。

d)重复数据：在进行模型训练前，需要对重复数据进行删除处理，这样有助于提高模型的预测精度。

2.特征选择（特征的选择、特征的表达）

a）特征的选择：相关性判别分析和特征离散图还有业务经验。相关性判别分析是采用一些关联规则对特征和目标特征进行相关性判别分析，如皮尔森相关系数，目的是为了减少人为因素干扰。业务经验是根据相关领域工作者长期的业务知识主观的挑选业务特征。

b）特征的表达：最小-最大规范化，假定 $min_{x},max_{x}$ 分别属于属性X的最小值和最大值。通过计算:

$x^{_{'}}_{i}=\frac{x_{i}-min_{x}}{max_{x}-min_{x}}(nmax_{x}-nmin_{x})+nmax_{x}$

把 $x_{i}$ 映射到区间[ $nmax_{x},nmin_{x}$ ]中的 $x^{_{'}}_{i}$ 。

z-score规范化,也称零均值规范化。是基于属性X的均值和标准差来进行数据变换:

$x^{_{'}}_{i}=\frac{x_{i}-\bar{x}}{\sigma_{x} }$

其中 $\bar{x}$ 和 $\sigma_{x}$ 分别是属性X的均值和标准差，z-score规范化适用于属性的最大值最小值未知，或存在离群点影响最大值和最小值。

3.模型选择（机器学习、神经网络）

机器学习算法包括：决策树、随机森林、逻辑回归、SVM、AdaBoost、KNN等，神经网络包括多层感知机（MLP）、长短期记忆网络（LSTM）等

4.模型评估（AUC值）

AUC值被定义为ROC曲线下的面积，使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而AUC作为一个数值，对应的数值越大，分类器效果越好。

基于大数据的客户流失预测流程

猜你喜欢