描述统计学:极差、方差、标准差

变异程度的度量(离散程度的度量)

交货时间的变异性造成按时完成生产任务的不确定性

极差

极差=最大值-最小值

最简单的变异程度的度量

但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响

四分位数间距

能够克服极端值的影响,因为四分位数是中间的50%数据的极差.

方差

是用所有数据对变异程度所做的一种度量。

对于样本平均数的离差=

对于总体平均数的离差=

总体方差

样本方差

样本方差是总体方差的点估计,平均数的离差之和永远为0。

例子:

第一组的鸡的斤数分别是 2.5,3,3.5
第二组的鸡的斤数分别是 1,3,5

很显然我们能看出第一组鸡看起来重量的差别不大,第二组鸡的差别就很大,因为鸡本身重量并不大,相差两斤的话一下子就能看出来
可是我们发现这两组鸡重量的平均数是一样的,但是这两组鸡却有明显的差别,这是平均数就不能体现二者的差别,所以我们引入了方差的概念

方差越大,说明数据的差别越大。反应了一组数据的稳定性。

标准差

方差的平方根

样本标准差:

总体标准差

标准差更容易与平均数等其他统计量进行比较,这是由于它们的单位与原始数据是相同的。

标准差系数

(标准差/平均数)*100%

在变量的标准差和平均数都不相同时,比较它们的变异程度,标准差系数是一个有用的统计量。

练习

  1. 考虑数据值为10,20,12,17和16的一个样本,计算方差和标准差。
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 标准差
data.std()
1.7677669529663689

gai

new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 标准差
data.std()
8.67179335547152
# 平均数
data.mean()
178.0
# 极差
data.max()-data.min()
22
# 标准差系数
(data.std()/data.mean())*100%
4.87%

gai

# 平均数
car.mean()
38.0
# 标准差
car.std()
9.848857801796104
# 方差
car.var()
97.0

虽让东西部的租车费用的平均数相同,但是标准差东部的数值远远大于西部的,可见东部的各个城市间的租车费用差异性比较大,离散度较高,西部的各个城市间的租车费用相对来说差别不大,比较稳定。

gai

dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=['dawson','clark'])
shopT = shop.T
shopT

    dawson  clark
0   11  8
1   10  10
2   9   13
3   10  7
4   11  10
5   11  11
6   10  10
7   11  7
8   10  15
9   10  12

diff_vale = shopT.max()-shopT.min()
diff_vale
# 极差
dawson    2
clark     8

s = shopT.std()
s
# 标准差
dawson    0.674949
clark     2.584140

由两家的极差和标准差可见,稳定性dawson远远高于clark。

gai

Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均数
golf_person.mean(axis=1)
2005    76.0
2006    76.0
# 标准差
golf_person.std(axis=1)
2005    2.070197
2006    5.264436

golf_person.T.describe()
        2005            2006
count   8.000000    8.000000
mean    76.000000   76.000000
std 2.070197    5.264436
min 73.000000   70.000000
25% 74.750000   71.000000
50% 76.000000   76.000000
75% 77.250000   79.250000
max 79.000000   85.000000

虽然平均数是相同的,但是看的出来,2006年的比赛,心态并不稳定,但是最大值和最小值的差值从2005的6,2006年的15反映出该运动员的水平是得到了提高的。

猜你喜欢

转载自www.cnblogs.com/lishi-jie/p/9924590.html