DataWhale 统计学一周训练营 task2

参考：

知识点：

中心极限定理
当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。
与大数定律的区别：大数定律描述的样本均值趋于总体均值，而中心极限定律描述的是样本均值的分布。
1）大数定律是说，n只要越来越大，把这n个独立同分布的数加起来去除以n得到的这个样本均值（也是一个随机变量）会依概率收敛到真值u，但是样本均值的分布是怎样的我们不知道。
（2）中心极限定理是说，n只要越来越大，这n个数的样本均值会趋近于正态分布，并且这个正态分布以u为均值，sigma^2/n为方差。
（3）综上所述，这两个定律都是在说样本均值性质。随着n增大，大数定律说样本均值几乎必然等于均值。中心极限定律说，它越来越趋近于正态分布，并且这个正态分布的方差越来越小。
直观上来讲，想到大数定律的时候，脑海里浮现的应该是一个样本；
想到中心极限定理的时候脑海里应该浮现出很多个样本。
样本均值的抽样分布
样本均值抽样分布是所有样本均值抽样形成的分布。其中偏度与峰度是描述一个分布有多像正态分布的物理量。其中正偏度表示数据正向的多，负偏度表示数据负向的多。峰度反映了锋部的尖度。
均值标准误差
样本均值抽样分布是所有样本均值抽样形成的分布。均值标准差是样本均值抽样分布的标准差，其和总体标准差的关系为：\sigma _{x}^{2}=\sigma ^{2}/n
置信区间
在样本估计总体均值时，我们需要知道估计的准确度，因此选定一个区间[a,b]，目的是让这个区间包含总体均值，这个区间叫做置信区间。对于这个区间有多大概率包含总体均值，这个概率称为置信水平。置信水平是根据实际问题自己确定的，一般设定为95%即两个标准差。总之：置信区间是我们计算变量的存在范围，置信水平是我们对这个范围的可信程度。
置信区间计算方法：首先，计算样本均值，样本均值标准差。问题是事先我们并不知道总体的标准差。因此我们需要用估计值来代替。我们选择样本方差作为总体方差的估计，需注意是会跟随样本的变化而变化的，其次确定置信水平，最后查找z表格，计算置信区间。
记住：置信水平指的是你希望自己对“置信区间包含总体统计量”这个说法有多大信心。
当样本数量小于30时，样本分布不再符合正态分布而是符合T分布。T分布只有一个自由度参数n，当n趋于无穷时，T分布变为标准正态分布，其实T分布只是正态分布的一种近似，是正态分布在小样本时的形态。计算置信区间的方法和正态分布类似，不同的是要查t分布表而不是z分布表。

DataWhale 统计学一周训练营 task2

猜你喜欢