1. 什么是箱式图
1.1 箱式图概念
箱式图,又叫箱形图(Box-plot),是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。箱图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
1.2 箱式图的元素
箱式图主要需要关注的其实是5条线,即下图中的上界线、上四分位线、中位数线、下四分位线、下界线。
理解箱式图的含义,需要先回顾一下四分位数的知识,一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。
第一四分位数 (Q1),也叫作下四分位数,第二四分位数 (Q2,也叫“中位数”),第三四分位数 (Q3),也叫作上四分位数,上面三个四分位数分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR) 。
比如,下面这张图详细的解释了箱式图不同线的含义,先看箱体结构,箱体的上线(上四分位线)是Q3,下线(下四分位线)是Q1,所以箱体表示的即是四分位间距(IQR)箱体中间的线表示中位线(Q2)。上界线表示的是数据可能出现的最大值Q3+1.5IQR,下界表示可能出现的最小值Q1-1.5IQR。上界和下界背后有着一种概率的含义,并不是表示这组数据的最大值和最小值。对于小于下界、大于上界的数值