统计学——步步为营

版权声明:本文为博主原创文章,转载请附上博文链接! https://blog.csdn.net/qq_39823607/article/details/88063176

统计学:

以数据为中心。统计学可以分为两大类:
1.描述统计学。用一些代表性representative number 数据来向你描述整体数据特点。
2.推论统计学(inferential statistics)。用一部分数据进行分析,通过数学方法尽可能准确地预测整体情况。

均值、中位数、众数:

这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。这三种都是用来衡量一组数据的集中趋势的方法,集中趋势简单来说就是Average。这三个仅仅是用来描述average的definition。

  • 均值:最常见的一种计算方法是算术平均值 ,这是相对其他计算方法的定义而的,也就是说,根据实际情况,你可以自己定义适合目前情况的均值概念。

  • 中位数:先将这组数据从小到大排序,选取中间的那位数作为中位数,如果这组数据个数为偶数,取最中间两位数的平均数作为中位数。

  • 众数:数据组中出现次数最多的数字。

    为什么会有均值、中位数、众数来描述数据的集中趋势?
    答:各有优势,互相补充,从而更具有代表性。

描述性数据 不足 适用情况
均值 易受离群值影响 对称分布
中位数 偏态分布
众数 不唯一性 偏态分布

极差、中程数

  • 极差:数据组中最大数和最小数的差值。反映了这组数据的紧密程度。
  • 中程数:数据组中最大数与最小数的算术平均值。也是衡量一组数据集中趋势的一种方法。

总体均值、样本均值

为什么会出现总体和样本的概念?
答:由于统计总体的数据,会存在各种各样的麻烦,例如:工作量大、数据在周期内波动性大、代价大…… 因此,提出Sample概念。这样既可以操作性可行,而且正确的方法下,还可以尽可能准确地反应总体情况。这中间会涉及如何合理取样的问题,避免出现skewed sample现象。

Notations:
总体中每一个元素记作 : x 1 , x 2 , x 3 ,   , x n x_1,x_2,x_3,\cdots,x_n,\cdots
总体的size: N N
样本的size: n n
总体均值记作: μ = i = 1 N x i N \mu=\frac{\sum_{i=1}^{N}x_i}{N}
样本均值记作: x = i = 1 n x i n \overline{x}=\frac{\sum_{i=1}^{n}x_i}{n}

总体方差

我们在利用均值、中位数、众数来度量数据集的集中趋势的同时,也失去了一些infomation,我们不知道数据集中的元素和均值、中位数、众数的远近关系,因此,有必要研究一下离中趋势(dispersion)。

  • 总体方差 σ 2 = i = 1 N ( x i μ ) 2 N \sigma^{2}=\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} 这里需要思考的是,为什么需要取一个平方再求和,是否还有其他方法。

样本方差

我们知道求一个总体方差,一般是很难的,因此我们向来都是求样本方差。首先数据量很大,不易获得,其次总体均值也是不好解决的,通常都会用样本均值来估计总体均值。(思考:为什么可以用样本均值来估计总体均值? x μ \overline{x}是\mu的无偏估计量

  • 样本方差:此时用样本均值代替总体均值是再好不过的了。 S 2 = i = 1 n ( x i x ) 2 n S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n} 它是总体方差的一个很不错的估计值,人们有时候也会这样表示样本方差 S n 2 S_{n}^2 。但是一般用 S n 2 S_{n}^2 会低估 σ 2 \sigma^{2} ,这是由于所选样本造成的,事实发现有一个公式可以更好地估计 σ 2 \sigma^{2} S 2 = i = 1 n ( x i x ) 2 n 1 S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1} 它被称为总体方差的无偏估计(unbiased estimator)。

标准差

为什么要有标准差的概念?难道方差有什么不足吗?
答:因为标准差的单位更好。

  • 总体标准差: σ = σ 2 = i = 1 N ( x i μ ) 2 N \sigma=\sqrt{\sigma^2}=\sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}
  • 样本标准差: S = S 2 = i = 1 n ( x i x ) 2 n 1 S=\sqrt{S^2}=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}
    但是此时 S S 并不是 σ \sigma 的无偏估计。(以后会证明)

方差公式的其他形式推导

σ 2 = i = 1 N ( x i μ ) 2 N = i = 1 N ( x i 2 2 x i μ + μ 2 ) N = i = 1 N x i 2 i = 1 N 2 x i μ + i = 1 N μ 2 N = i = 1 N x i 2 N 2 μ i = 1 N x i N + i = 1 N μ 2 N = i = 1 N x i 2 N 2 μ 2 + μ 2 = i = 1 N x i 2 N μ 2 \begin{aligned} \sigma^{2}&=\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} \\ &= \frac{\sum_{i=1}^{N}(x_{i}^2-2x_i\mu+\mu^2)}{N} \\ &=\frac{\sum_{i=1}^{N}x_i^2-\sum_{i=1}^{N}2x_i\mu+\sum_{i=1}^N\mu^2}{N} \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu\frac{\sum_{i=1}^Nx_i}{N}+\frac{\sum_{i=1}^N\mu^2}{N} \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-2\mu^2+\mu^2 \\ &=\frac{\sum_{i=1}^Nx_i^2}{N}-\mu^2 \end{aligned} 进一步推导:
σ 2 = i = 1 N x i 2 N ( i = 1 N x i N ) 2 \begin{aligned} \sigma^2&=\frac{\sum_{i=1}^Nx_i^2}{N}-(\frac{\sum_{i=1}^Nx_i}{N})^2 \end{aligned} This is the interesting part.

随机变量

随机变量是一种将随机过程结果与数字相映射的泛函。它并不是传统意义上的变量。

  • 离散随机变量(discrete) :finite number of outcomes,它的随机表示出现的可能性,这时便伴随着出现概率,怎样描述离散随机变量的出现概率?它的表现形式为概率分布函数。
  • 连续随机变量(continuous):infinite number of outcomes,同理,怎样描述连续随机变量的出现概率问题?而它的表现形式为概率密度(density)函数。

概率密度函数

对于连续随机变量的概率分布,我们自然想移用离散随机变量的概率分布函数来表示:Probability_density_diatribution_function
但是这时我们需要思考:如果y-axis表示Probability,x-axis表示随机变量,那么 P ( X = x i ) = y i P(X=x_i)=y_i ,仔细想一下,对于连续随机变量 X X ,当 X X 等于某一确切的数时,其出现的概率几乎为 0 0 ,显然不符合假设;当 X X 是一个interval时,其出现概率才不会为 0 0 。我们怎样才能把连续随机变量和出现概率用一个泛函来map起来呢?自然联想到面积,这就利用到了积分的知识。我们这样规定:上图中的曲线为概率密度函数,面积即为出现概率。 P ( a x b ) = a b f ( x ) d x P(a \leq x\leq b)=\int_a^bf(x){\rm d}x 可以看出 P ( < x < ) = f ( x ) d x = 1 P(-\infty \lt x \lt \infty)=\int_{-\infty}^{\infty}f(x){\rm d}x=1

均匀分布

二次分布

  • 伯努利试验:在相同的条件下,重复地、独立地进行的一种随机试验。该随机试验只有两种结果:发生或者不发生。
  • 伯努利分布:即0-1分布,1次伯努利试验。如果随机变量
    X = { 0 , n o 1 , y e s X= \begin{cases} 0 & ,no\\ 1 & ,yes\\ \end{cases}

随机变量 X X 的概率分布:

X X P r o b a b i l i t y Probability
1 p p
0 1 p 1-p
  • 二项分布:n重伯努利试验。是一种离散型分布。

猜你喜欢

转载自blog.csdn.net/qq_39823607/article/details/88063176