《商务与经济统计》学习笔记(三)

1.异常值的检测

有时候数据集中会包含一个或多个异常大或小的观测值,这些极端值称为异常值。
标准化数值(z-分数) 可以用来确认异常值。
什么是(z-分数):利用平均数和标准差,我们可以确定任何观察值的相对位置。任何观测值的z-分数都被认为是对数据集中观测值相对位置的量度。
计算公式为:

z i = ( x i x ˉ ) / s . z_{i} =(x_{i}-\bar x)/s.
其中 z i z_{i} 代表z-分数, x ˉ \bar x 为样本平均数;s为样本标准差。
经验法则:对具有钟形分布的数据,几乎所有的数据值与平均数的距离都在3各标准差之内。因此,利用z-分数来检测异常时,建议把z-分数小于-3或大于+3的任何数值都视为异常值。

另一种方法:
确认异常值的另一种方法是以第一四分位数和第三四分位数( Q 1 Q_{1} Q 3 Q_{3} )以及四分位数间距( I Q R IQR )为依据。利用这种方法,我们首先计算如下的下限和上限:
= Q 1 1.5 × I Q R = Q 3 + 1.5 × I Q R I Q R = Q 3 Q 1 . 下限=Q_{1}-1.5\times IQR\\ 上限=Q_{3}+1.5\times IQR\\ IQR = Q_{3}-Q_{1}.
如果一个观测值的数值小于下限或者大于上限,则被归于异常值。

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。

在这里插入图片描述

2.五数概括法和箱型图

五数概括法使用下面五个数来汇总数据:
(1)最小值
(2)第一四分位数
(3)中位数(第二四分位数)
(4)第三四分位数
(5)最大值
箱型图:基于五数概括法的数据图形汇总。

发布了28 篇原创文章 · 获赞 13 · 访问量 5003

猜你喜欢

转载自blog.csdn.net/qq_34069667/article/details/105492174
今日推荐