数据分析之常用统计量与分布

众数、平均数和中位数

一般不选众数为统计量,只有数据非常干净的时候众数才有价值。

当数据对称时,我们选择均值,做模型做预测,都是均值,参数估计选用均值,非参用中位数,描述性统计右偏时选中位数;一般不会出现左偏,如二八定律。

正太分布偏度 skewness = 0,右偏 skewness > 0,一般大于1右偏较严重,左偏 skewness < 0

分布

正太分布:人的身高,自然界的分布

对数正太分布(右偏最严重的):收入、利润,描述性统计就用中位数;建模,建立回归,神经网络等就对数据去对数 ln 即可

泊松分布:网页点击量,排队队伍长度等

伽玛分布:灾难造成的损失,损失的金额

一倍标准差围成的面积为全部的 68%,两倍 95%,三倍 99%

离散程度

四分位差与盒须图

直方图与柱形图

柱形图取的是离散变量,直方图取的是连续变量,画直方图要指定分多少份,每一份数他的频次

猜你喜欢

转载自blog.csdn.net/HAIYUANBOY/article/details/89441841