【统计学笔记】第四章 数据的概括性度量

第四章 数据的概括性度量


4.1 集中趋势的度量

4.1.1 分类数据:

  • 众数 M o : m o d e M_o:mode Momode):一组数据中出现次数最多的变量值。

4.1.2 顺序数据:

  • 中位数 M e : m e d i a n M_e :median Memedian):是一组数据排序后处于中间位置上的变量值。
    • 中位数位置 p o s = n + 1 2 pos = \frac{n+1}{2} pos=2n+1 M e = { p o s 位 上 的 值 , n 为 奇 数 ; 对 p o s 向 上 、 向 下 取 整 的 两 个 位 置 数 的 平 均 数 , n 为 偶 数 ; M_e= \left\{ \begin{aligned} & pos位上的值 &,n为奇数;\\ \\ & 对pos向上、向下取整\\ &的两个位置数的平均数 &,n为偶数; \end{aligned} \right. Me=posposnn
  • 四分位数 Q L Q_L QL Q U Q_U QU):一组数据排序后处于25%和75%位置上的值。
    • 下四分位数( Q L : q u a r t i l e   l o w Q_L:quartile \ low QLquartile low
    • 上四分位数( Q U : q u a r t i l e   u p Q_U:quartile \ up QUquartile up
    • 四分位数的位置 p o s : pos: pos
      在这里插入图片描述
    • 四分位数的取值:
      • 在整数位置上:就是该位置上的值;
      • 在0.5的位置上:对pos向上、向下取整的两个位置数的平均值;
      • 在0.25或0.75的位置上:对pos向下取整的数 + (对pos向上取整的数 - 对pos向下取整的数) * 0.25或0.75

4.1.3 数值型数据:

  • 平均数 x ˉ \bar x xˉ):
    • 简单平均数 :平均数
    • 加权平均数( M i M_i Mi是各组的组中值,200~250组中值就是225; f i f_i fi是各组变量值出现的频数):加权平均数 n
    • 几何平均数 G : g e o m e t r i c   m e a n G:geometric \ mean Ggeometric mean):主要用于计算平均比率
      几何平均数

4.1.4 众数和中位数和平均数的比较:

  • 左偏分布(平均数 x ˉ \bar x xˉ最小,众数 M o M_o Mo最大,平均数<中位数<众数);
  • 右偏分布(平均数 x ˉ \bar x xˉ最大,众数 M o M_o Mo最小,众数<中位数<平均数);
  • 对称分布(三者相等,众数 = 中位数 = 平均数)
    bijiao

4.2 离散程度的度量

4.2.1 分类数据:

  • 异众比率 V r : v a r i a t i o n   r a t e V_r:variation \ rate Vrvariation rate):不是众数的数占总体数据的比率
    • 异众比率主要用于衡量众数对一组数据的代表性;
    • 异众比率适合测度分类数据的离散程度
      异众比率

4.2.2 顺序数据:

  • 四分位差 Q d : q u a r t i l e   d e v i a t i o n Q_d:quartile \ deviation Qdquartile deviation):
    • 四分位差反映了中间50%的数据的离散程度,数值越小说明数据越集中,数值越大说明说明数据月分散;
    • 四分位差主要用于测度数据的离散程度
      四分位差

4.2.3 数值型数据:

  自由度:样本个数-1,即 n-1;

  1. 极差( R : r a n g e R:range Rrange):一组数据的最大值和最小值之差
    1
  2. 平均差:
    在这里插入图片描述
  3. 标准差和方差:
    1. 标准差 s : s t a n d a r d   d e v i a t i o n s:standard \ deviation sstandard deviation):
      标准差

    2. 方差 s 2 : v a r a n c e s^2:varance s2varance):
      1
      2

  4. 相对位置的度量
    1. 标准分数:变量值与其平均数的离差除以标准差以后的值。
      1
      2
    2. 经验法则:当一组数据对称分布时,在 ± 3 \pm 3 ±3 个标准差之外的数据,称为离群点
      在这里插入图片描述
    3. 切比雪夫不等式:对任何分布形态的数据都适用(非对称分布就用这个),至少有比例为 ( 1 − 1 k 2 ) (1-\frac{1}{k^2}) (1k21)的数据在 ± k \pm k ±k 个标准差内( k k k是大于1的任意数)。
      在这里插入图片描述

4.2.4 相对离散程度:

  • 离散系数 v s : c o e f  ⁣ f i c i e n t   o f   v a r i a t i o n v_s:coef\!ficient \ of \ variation vscoefficient of variation):也称为变异系数,是一组数据的标准差和其平均数之比。
    1
    1

4.3 偏态与峰态的度量

4.3.1 偏态及其测度

  • 偏态( s k e w n e s s skewness skewness):对数据分布对称性的测度;
  • 偏态系数( S K SK SK):测度偏态的统计量;

1
在这里插入图片描述

数 据 的 分 布 : { 对 称 , S K = 0 非 对 称 , S K ≠ 0 { 中 等 偏 态 分 布 , 0.5 < ∣ S K ∣ < 1 高 等 偏 态 分 布 , ∣ S K ∣ > 1 数据的分布: \begin{cases} 对称 &,SK = 0 \\ 非对称&,SK \ne 0 \begin{cases} 中等偏态分布 &,0.5<|SK| < 1\\ 高等偏态分布 &,|SK| > 1 \end{cases} \end{cases} SK=0SK=0{ 0.5<SK<1SK>1

数 据 的 偏 斜 : { 左 偏 ( 负 偏 ) , S K < 0 右 偏 ( 正 偏 ) , S K > 0 数据的偏斜: \begin{cases} 左偏(负偏)&,SK < 0 \\ 右偏(正偏)&,SK > 0 \end{cases} { SK<0SK>0

4.3.2 峰态及其测度

  • 峰态 k u r t o s i s kurtosis kurtosis):对数据分布平峰或尖峰程度的测度
  • 峰态系数 K K K):测度峰态的统计量
    在这里插入图片描述
    在这里插入图片描述
    峰 态 : { 扁 平 分 布 , K < 0 , 正 态 分 布 , K = 0 , 尖 峰 分 布 , K > 0 ; 峰态: \begin{cases} 扁平分布 &,K < 0,\\ 正态分布 &,K = 0,\\ 尖峰分布 &,K > 0; \end{cases} K<0K=0K>0

猜你喜欢

转载自blog.csdn.net/MYMarcoreus/article/details/111392733