数值型数据的整理与展示


数据分组

1. 组距分组 (要点)

  • 将变量值的一个区间作为一组
  • 适合于连续变量
  • 适合于变量值较多的情况
  • 需要遵循“不重不漏”的原则
  • 可采用等距分组,也可采用不等距分组

2. 组距分组 (步骤)

  • (1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K 15
  • (2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即  组距=( 最大值 - 最小值)÷ 组数
  • (3)统计出各组的频数并整理成频数分布表

3. 组距分组 (几个概念)

  • 下限(lower limit) :一个组的最小值
  • 上限(upper limit) :一个组的最大值
  • 组距(class width) :上限与下限之差
  • 组中值(class midpoint) :下限与上限之间的中点值

数值型数据的图示

分组数据——直方图和折线图

1. 分组数据—直方图 (histogram)

  • 用于展示分组数据分布的一种图形
  • 用矩形的宽度和高度来表示频数分布
    • 本质上是用矩形的面积来表示频数分布
  • 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图

直方图与条形图的区别

  • 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
  • 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
  • 直方图的各矩形通常是连续排列,条形图则是分开排列
  • 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据

2. 未分组数据—茎叶图和箱线图

(1)未分组数据—茎叶图 (stem-and-leaf display)

  • 用于显示未分组的原始数据的分布
  • 由“茎”和“叶”两部分构成,其图形由数字组成
  • 以该组数据的高位数值作树茎,低位数字作树叶
  • 树叶上只保留最后一位数字
  • 茎叶图类似于横置的直方图,但又有区别
    • 直方图可观察一组数据的分布状况,但没有给出具体数值
    • 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
    • 直方图适用于大批量数据,茎叶图适用于小批量数据

(2)未分组数据—箱线图 (box plot)

  • 用于显示未分组的原始数据的分布
  • 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
  • 绘制方法
    • 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)
    • 连接两个四分位数画出箱子,再将两个极值点与箱子相连接
    • 该箱线图也称为Median/Quart./Range箱线图

3. 时间序列数据—线图 (line plot)

  • 表示时间序列数据趋势的图形
  • 时间一般绘在横轴,数据绘在纵轴
  • 图形的长宽比例大致为10 : 7  一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断

4.多变量数据的图示

(1)两个变量间的关系—二维散点图 (2D Scatterplots)

  • 展示两个变量之间的关系
  • 用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图

(2)三个变量间的关系—气泡图 (bubble chart)

  • 显示三个变量之间的关系
  • 图中数据点的大小依赖于第三个变量

(3)多变量数据—雷达图 (radar chart)

  • 也称为蜘蛛图(spider chart)
  • 显示多个变量的图示方法
  • 在显示或对比各变量的数值总和时十分有用
  • 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
  • 可用于研究多个样本之间的相似程度
  • 雷达图的制作
    • 设有n组样本S1,S2,… , Sn,每个样本测得P个变量X1,X2 ,… , XP,要绘制这P个变量的雷达图,其具体做法是
    • 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
    • 将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图

猜你喜欢

转载自blog.csdn.net/qq_43133192/article/details/106003946
今日推荐