数据标准化常见问题与解决方案汇总

一、缺失值如何处理?

1 、缺失值定义?

1) 取值失败,没有对应的数值,属于系统类缺失;

2) 计算过程中,影响计算(如除数为0),为了使计算能够正常的进行,返回缺失值。该处属于自定义的缺失值;

2、 对于缺失值,计算过程中的处理方案?

1)、如果缺失值的比例占样本的比例较少(低于10%),则可以采用均值、众数、差值等方式进行填充。若在分箱过程中,则可以将该类缺失值,用分箱占比做大的一组进行映射;

2)、如果缺失值的比例占样本比例较高(超过50%),则此类缺失值,不建议采用其他的数值进行填充。若在分箱过程中,则可以将该类缺失值,单独为一个分组进行映射;

3)、如果缺失值,在业务逻辑上存在一定的有效性,则按照相应的业务情况进行处理;

二、分箱常见的方法有哪些?

1、等样本法

此种方法主要考虑的是让样本分布均匀,主要针对于样本较少的常见可以采用此方法。进行初步分组,然后结合实际的需求进行下一步的合并与拆分,按照卡方法、决策树、专家意见等方法进行合并

2、等间距法

3、离散变量

猜你喜欢

转载自blog.csdn.net/alas123/article/details/85335338