应用数理统计学习笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_26822029/article/details/83997751

本篇为研究生用应用数理统计学习笔记,参考教材有:

《应用数理统计》施雨 著

《概率论与数理统计》吴翊 著

《程序员的数学2 概率统计》 平冈和幸 著

复习 概率论部分知识

A 连续型随机变量及其密度函数

1. 正态分布

特点:两头低,中间高。

随机变量X的密度函数为:

f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}, -\infty <x<\infty

则称X服从参数为\left ( \mu ,\sigma ^{2} \right )的正态分布,记为X\sim N\left ( \mu ,\sigma ^{2} \right )

参数\mu ,\sigmaf(x)图形的影响是:

1)固定\sigma ^{2},当\mu变化时,曲线沿着x轴平移;

2)固定\mu,当\sigma ^{2}变小是,曲线变得陡峭,当\sigma ^{2}变大时, 曲线变得平坦。

\mu =0, \sigma ^{2}=1时,称X服从标准正态分布,记为X\sim N\left ( 0 ,1 )。若随机变量X\sim N\left ( \mu ,\sigma ^{2} \right ),则有\tfrac{X-\mu }{\sigma }\sim N\left ( \mu ,\sigma ^{2} \right )

B 大数定律

1. 通俗讲大数定律

拿抛硬币的例子来说,抛硬币的历史实验数据如下表所示。按照我们对于概率论的常识来说,当样本足够大的时候,我们抛硬币的正反面的结果应该各占50%左右。而且当样本数n足够大,这个正面占比也应该更加接近50%才对,然而下表中最后一行的数据告诉我们,事实并不是这样的。显然,当试验次数达到8万多的时候,正面占比距离50%的误差更大了,这是为什么呢?

这个问题需要使用大数定律的知识来解释,大数定律中说当样本数足够大的时候(仍然说抛硬币这个例子),正面向上所占的百分比将依概率收敛于期望值0.5。也就是说当抛硬币次数n趋向于无穷大的时候,正面向上所占的百分比无限逼近于50%的概率将会越来越大(并不排除在实验中会出现极小概率事件而偏离0.5——如下表数据中最后一行的结果)。

试验者 试验次数 正面次数 正面占比
德摩根 4092 2048 50.05%
蒲丰 4040 2048 50.69%
费勒 10000 4979 49.79%
皮尔逊 24000 12012 50.05%
罗曼洛夫斯基 80640 39699 49.23%

可以简单的总结大数定律为:

当n越来越大时,随机变量X1, X2, ... , Xn的平均值Z = \frac{X1+X2 + ... +Xn}{n}将逐渐收敛于期望\mu

2.依概率收敛

通俗的讲,就是当n越来越大,{Xn}接近于X的概率越来越大。

设{Xn}为随机变量列,X为随机变量,若对于任意实数\epsilon>0,有\lim_{n\rightarrow \infty }\left P\{ |X_{n}-X|<\epsilon \right \}=1,称\left \{ X_n \right \}依概率收敛于X

记为X_n\overset{P}{\rightarrow}X.

3.伯努利大数定律

只强调n次独立重复实验。当重复次数n足够大,事件A发生的频率近似等于事件A发生的概率。

n_An次独立重复实验中事件A发生的次数,且P(A) = p,则对于任意实数\epsilon >0,有:

\lim_{n\rightarrow \infty }P\left \{ |\frac{n_A}{n} - p |\geqslant\epsilon \right \}=0或者\lim_{n\rightarrow \infty }P\left \{ |\frac{n_A}{n} - p |< \epsilon \right \}=1,也即\frac{n_A}{n}\overset{P}{\rightarrow}p.

4. 切比雪夫大数定律

只强调两两不相关,不相关不一定独立,但是独立一定不相关。

设{Xn}为两两不相关的随机变量列,且每个随机变量的方差有共同的上界,即存在常数c>0,使得D(X_i)\leqslant c (i=1,2,...)

则随机变量序列{Xn}服从大数定律,即对于任意实数\epsilon >0,有:

\lim_{n\rightarrow \infty }P\left \{ |\frac{1}{n}\sum_{i=1}^{n}X_i - \frac{1}{n}\sum_{i=1}^{n}E(X_i) |\geqslant\epsilon \right \}=0

5. 辛钦大数定律 (弱大数定律)

 设{Xn}为独立同分布的随机变量列,且数学期望\mu \equiv E(X_1)存在,则{Xn}服从大数定律,即对于任意实数\epsilon >0,有:

\lim_{n\rightarrow \infty }P\left \{ |\frac{1}{n}\sum_{i=1}^{n}X_i - \mu |\geqslant\epsilon \right \}=0

辛钦大数定律表明,若独立同分布随机变量列{Xn}的数学期望\mu \equiv E(X_1)存在,则当n充分大时,n个随机变量的算术平均值

\frac{1}{n}\sum_{i=1}^{n}X_i几乎等于常数\mu

C 中心极限定理

中心极限定理从理论上揭示了:当随机指标是由大量、独立的微小因素叠加而成的话,这个随机指标服从或近似服从正态分布。

定理(独立同分布情形下的中心极限定理) 设{Xk}为独立同分布的随机变量列,且数学期望与方差存在,则{Xk}服从中心极限定理。

*因为若只有条件“{Xk}是独立堆积变量列,且数学期望与方差都存在”并不能保证{Xk}必定服从中心极限定理。反例见《概率论与数理统计》 吴翊 著P141。

棣莫弗-拉普拉斯中心极限定理 设Y_n\sim B(n,p)(n=1,2,...),则对任意实数x有:

\lim_{n\rightarrow \infty }P\left \{ |\frac{Y_n-np}{\sqrt{np(1-p)}}|\leqslant x \right \}=\frac{1}{\sqrt{2\pi }}\int_{-\infty }^{x}e^{-\frac{t^{2}}{2}}dt

正文 数理统计

1 概述

1. 数理统计是以概率论为基础,研究关于实验数据收集整理分析推断的一门学科。

2. 在数理统计的框架下,统计推断的本质是从获取的信息中得到关于分布的结论。在概率论中,我们往往是从一个已知的分布出发,了解它具有的性质;而在统计推断中,则是在一类未知的分布中找出一个分布,使得它在一定的意义下,与已知信息最为接近。因为是推断,得到的结果只能相对合理,因此需要有合理性的判断标准。

3. 统计推断具体包含两部分的内容:一是估计,即通过给定的样本集推断这个样本集的分布是什么;二是假设检验,即回答所推断的分布是某类特定的分布这一结论是否成立。

【举个栗子,可能不是很恰当但我感觉有助于帮助区分概率论和数理统计的概念】还是举一个抛硬币的例子,我们都知道一个正常的硬币抛出正面和反面的概率应该各为0.5,因此把抛硬币正面朝上看作事件A,那么P(A)=0.5。可以把抛硬币看作一个0-1分布,0代表抛出反面,1代表抛出正面。

现在问题来了,假设你去到一个新的星球,这个星球上的人们很可怜,他们没有硬币可以抛,因此他们并不知道抛出一枚硬币后硬币正面朝上的概率是多少。现在让他们通过做抛硬币的实验来估计在他们星球上抛出一枚硬币正面朝上的概率是多少,应该怎么做呢?假设你让他们抛1000次硬币,发现有700次都是正面朝上,有299次是反面朝上,还有一次硬币卡在了地缝里。因此这1000次抛硬币实验就是他们的样本集,他们要通过这1000个样本来估计他们星球上抛硬币正面朝上的概率,这个概率应该是多少呢?会跟在地球上一样是0.5吗?

显然不是,大致算一下应该是P(A)=\frac{700*1+299*0}{999}=0.7007(在这里有一次硬币插到地缝里了,应该舍弃这个样本),啊哈概率是0.7007。到底发生了什么?硬币正面朝上的概率竟然不是0.5,夭寿了!

在这个不是很恰当的例子里面,我们发现硬币正面朝上的概率竟然不是0.5,太匪夷所思了!因此我不禁怀疑这个硬币是不是被动了手脚。这就是一个数理统计在实际中的应用的例子——通过参数估计的方法来推断这个样本集的分布。

2 数理统计的基本概念 

2.1 总体和个体

总体:研究对象的全体称为总体,总体研究对象的数量指标X, X\sim F(x)——称X服从F(x)分布,F(x)为总体的分布函数。

个体:总体中的每一个具体的对象称为个体,也就是总体X的可能取值。

比如:现在需要分析二年级一班学生的英语考试成绩,那么这个班的所有学生的英语考试成绩就是总体,每一个学生的英语考试成绩就是个体。 数理统计关心的并非是每个个体的所有属性,而是个体的某一项或者若干项数量指标X(如本例中的学生英语成绩)和该数量指标X在总体中的分布情况。

数理统计需要解决的问题是:如果知道部分个体的值,能否预测总体?比如知道若干个同学的英语成绩,能否预测全班的英语成绩?

2.2 样本

简单随机样本:从总体X中随机抽样得到的样本用X1,...,Xn来表示,其中X1,...,Xn是独立同分布的(记为i.i.d),而且Xi与X的分布相同,则称X1,...,Xn为简单随机样本。

样本观测值:对样本X1,...Xn进行观测后,得到的观测值x1,...xn称为样本观测值。

注意:在观测前:X1,...Xni.i.d随机变量;观测后,x1,...xn是具体的数据。

样本的联合分布:设总体X\sim F(x),则X1,...Xn的联合分布函数为:

F(x_1,x_2,...,x_n)=P\left \{ X_1\leq x_1, ...,X_n\leq x_n \right \}=\prod_{i=1}^{n}F(x_i)

(连续性随机变量)联合概率密度:若总体X的密度函数为f(x),则样本X1,X2,...,Xn的联合密度函数为:

f(x_1,x_2,...,x_n)=\prod_{i=1}^{n}f(x_i)

(离散型随机变量)联合分布律:若总体X具有分布律(概率函数)p(x),其中p(a_i)=P\left \{ X=a_i \right \},i=1,2,...,则样本X1,X2,...,Xn的联合分布律为:

P\left \{ X_1=x_1, ..., X_n=x_n \right \} = P\left \{ X_1=x_1 \right \}...P\left \{ X_n=x_n \right \}=\prod_{i=1}^{n}P\left \{ X=x_i \right \}

数据的整理 - 统计量 : 设X1,...Xn是来自总体X\sim F(x)的样本,g(x1,...,xn)是n元实值连续函数,若函数g(x1,...,xn)不含未知参数,则称之为统计量。

通俗的讲,统计量就是用作”统计推断的量“,因此它不能包含未知参数。 

三、参数估计

3.1 点估计

3.2 区间估计

点估计方法具有缺陷:

假如设\hat{\theta} = \hat{\theta(X_1, X_2, ..., X_n)}是未知参数θ的估计量,不同的样本集估计出来的\hat{\theta}可能具有不同的值,波动范围比较大。因此需要考虑:

1)用\hat{\theta}估计θ,有多高的精度?

2) 用\hat{\theta}估计θ,有多高的可信度?

3) 未知参数θ落在什么范围内?

因此我们希望根据所给的样本确定一个随机区间,使其包含参数真值的概率达到指定的要求。

3.2.1 区间估计的基本概念

区间估计的定义: 设总体X\sim F(x;\theta ),θ是待估计参数,若对给定的\alpha (0 < \alpha < 1),存在两个统计量:\underline{\theta} = \underline{\theta}(X_1, X_2, ..., X_n)\overline{\theta} = \overline{\theta}(X_1, X_2, ..., X_n)使得P\left \{ \underline{\theta} < \theta < \overline{\theta} \right \} = 1- \alpha, \theta \in \Theta,则称随即区间(\underline{\theta}, \overline{\theta})为θ的置信度为1- α的置信下限置信上限,1 - α称为置信度或者置信水平。 

 α反映了估计的可信度,α越小,1 - α越大,估计的可信度越高;但通常会导致\overline{\theta} - \underline{\theta}增大,从而导致估计的精度降低。因此在α给定之后,置信区间的选区不唯一,通常选取\overline{\theta} - \underline{\theta}最小的置信区间。

来看一个例子:

3.2.2 正态总体情形下的区间估计

3.2.2.1 一个正态总体N(\mu, \sigma^{2})的情形

1)方差\sigma^{2}已知,求\mu的置信区间

2)方差\sigma^{2}未知,求\mu的置信区间

3)\mu未知,求\sigma^{2}的置信区间

4)\mu已知,求\sigma^{2}的置信区间

四、假设检验

假设检验就是对“假设”进行检验,根据“小概率事件在少量实验中是基本不可能出现的”这一结论,去反证假设的另一面很可能会是正确的。在整理这一块的知识的时候看到知乎上有些答案讲的很通俗易懂,推荐给读者们——知乎大佬们的解释

举个栗子让你更清楚这个概念。

4.1 背景(如果你看不懂这个例子,移步4.2通俗讲解)

【例4-1】某工厂生产的一批同类产品的次品率为p,按照规定,当p \le 0.01时,认为该批产品合格,可以接受;当p > 0.01时,该批产品被认定为不合格,不予接受。现在从这一大批产品中随机抽取了50件,发现其中有4件次品,问对这批产品应该做怎样的判断和决策?

在这个问题中,“p \le 0.01”就是一个需要检验的假设,我们把它记为H_0。现在我们要根据样本所提供的信息(样品中的次品率为4/50)对总体的次品率p是否满足p \le 0.01这一要求做出统计推断。记50件样品中有m件次品,很显然m的值越大代表这批产品的次品率越高,从而对H_0越不利。那么m的值在什么范围内就应该认为满足H_0呢?在处理这一类问题时常用的方法有一下两种:

【方法1】假定H_0成立,在此基础之上计算事件{m \ge 4}的概率,注意到m \sim B(50,p),因此不难计算得到P_{p=0.01} \left \{ m \ge4 \right \}=0.0016,因此当满足H_0时,事件{m \ge 4}的概率将小于等于0.0016,这个概率太小了。然而在题目中的抽样检测中发生了,如此小概率的事件发生了,说明它有悖于实际推断原理。因此拒绝假设H_0,认为这批产品不合格。

【方法2】假定H_0成立,在此基础上,对预先给定的小的正数a(称作显著性水平,一般取值0.01,0.05,或0.1等),由不等式:

\sup_{p \le 0.01}P_p\left \{ m\geK \right \} \le a

确定可接受次品数K的大小,因为m \sim B(50,p),又:

P_p\left \{ m\geK \right \} = \sum_{i=K}^{50}\binom{50}{i}P^i(1-p)^{50-i}

是参数p的单调增函数,故对于给定的a,只需要令P_{p=0.01} \left \{ m \ge K \right \}\le \alpha,即可求出K,例如当a = 0.05时,因为有:

P_{p=0.01} \left \{ m \ge2 \right \}=0.090 > aP_{p=0.01} \left \{ m \ge3 \right \}=0.014 \le aP_{p=0.01} \left \{ m \ge4 \right \}=0.002 \le a,因此可以得到临界值K=3。因此本题中m=4可以得到:拒绝假设H_0,认为该批产品不合格。

在更加一般的定义中,例4-1方法二中的a被称为检验的显著性水平。显著性水平越低,那么说明如果假设H_0成立(即p = 0.01,若要满足p\le a这一条件,次品数K会越大,也就是越难以拒绝假设H_0

因此显著性水平a越小,则越难以拒绝,不过这样拒绝H_0得到的结论也就越可信。

4.2 通俗的讲假设检验

用通俗的话来讲个假设检验的例子:

现在有一手机生产了一批AiAi手机,手机厂需要把这批手机卖给手机中间商。

那中间商就问了:“你这批手机质量怎么样啊,不会有什么问题吧,要是有问题那我买来手机卖不出去不就亏大了?”

手机厂说:“你放心,质量好得很!,我们保证次品率低于1%!”

中间商说:“哦呦,你都吹到天上去了,那我随便从这批手机中取50个检测看看有多少个有问题的手机。”

...中间商抽取手机中...

中间商说:“你看看你这垃圾手机,我抽了50个,有4个都是有问题的!无良商家,你退群吧。”

手机厂说:“你这么说听起来没问题,但是我不能确保你是不是非洲人啊,万一刚好把我这么多手机里头的坏手机都给挑出来了,那我不是比窦娥还冤?”

中间商说:“哼,你个小坑货还想跟我在这绕弯弯,假设检验听过没有?”

手机厂说:“What the fuck is this?”

中间商说:“小菜鸡,我们中间商什么大风大浪没见过,在这个时候肯定要用到假设检验喽,要不然不得被你们坑死。你听我给你算算啊,如果说你们的次品率是1%,抽取手机的过程可以看作独立同分布事件,也就是每次抽取到有问题的手机的概率都是1%,我现在抽了50次,抽到次品数大于等于4的概率是0.0016。”

手机厂说:“啥,概率这么小啊。”

中间商说:“对鸭,这么小概率的事件都发生了,你给我说你这手机次品率小于1%?骗鬼呢?”

手机厂灰溜溜的跑路了...

4.3 假设检验的逻辑

对于一个假设,我不知道它是否成立,而且实际测试过程中也存在许多非确定性因素可能导致我的测试过程不准确,那么我给出一个出现错误的容忍度(也就是显著性水平a),根据这个容忍度可以得到相应临界值(若观察值在这个范围内都是正常的,否则不正常),然后将观察值和这个值比较。

假设检验的基本步骤:

1.根据实际情况提出原假设H0和备择假设H1;

2.根据假设的特征,选择合适的检验统计量;

3.根据样本观察值,计算检验统计量的观察值(obs);

4.选择许容显著性水平a,并根据相应的统计量的统计分布表查出相应的临界值(ctrit);

5.根据检验统计量观察值的位置决定原假设取舍。

两种决定是否接受原假设的方法:

1、给定发生偏离原假设极端情况的概率(这就是显著性水平alpha),可以计算得到对应的临界值(参照图1,偏离原假设的阴影部分面积表示显著性水平,对应的坐标表示临界值)。若观察值在临界值范围内,表示出现这种现象都是比较正常的,则可接受原假设;若观察值超出临界值范围,则表示在原假设条件下出现了不太可能的现象,那么我们就怀疑原假设的成立性,则拒绝原假设。

2、给定发生偏离原假设极端情况的概率。计算出现观察值及比观察值还要偏离原假设的概率(这就是p值)。(参照下面这个图来理解)若p>alpha,则表示观察值在临界值范围内,则可接受原假设(如图1);若p<alpha,则表示观察值在临界值范围之外,则拒绝原假设(如图2)。p值是一个人工定义的东西,它其实还是通过判断观察值是否在临界值范围内来决定是否接受原假设。

猜你喜欢

转载自blog.csdn.net/qq_26822029/article/details/83997751