확률 및 통계 17-- 점 추정과 연속성 보정

  원래 |   https://mp.weixin.qq.com/s/NV3ThVwhM5dTIDQAWITSQQ

  확률 (probabilty) 및 통계 (통계), 사실, 연구의 정반대 문제 두 개의 유사한 개념이다.

  확률은 기대, 분산 등등과 같은 디지털 기능, 관련 모델 생성, 연구 결과의 결과를 예측하는 모델 알려진 매개 변수를 사용하고 있습니다. 지금은 평균 8.2, 1.5의 점수와 정규 분포의 분산과 함께 촬영 운동 선수, 당신은 운동 선수가 거친 평가 한 총을 가지고이 사건을 득점 수 있다고 알려져 가정하자.

  반대로 통계와 확률, 그것은 데이터의 무리이며, 다음 모델 매개 변수와 모델을 추론하기 위해 데이터를 사용합니다. 이제 우리는 그에 대해 아무것도 몰라, 이상한 선수 듯했지만, 그는 좋은 프로 선수임을 선언했다. 테스트 촬영 일련의를 수행 한 후, 코칭 스태프는 더 데이터 추론 모델 매개 변수 다음에, 정규 분포에 맞춰 자신의 성적 (인, 모델을 결정하는)하는 데이터를 관찰하여, 운동 선수의 그룹의 이름을 수집 특정 값. 정규 분포의 경우, 파라미터는 평균 및 분산이다.

  확률이 랜덤 이벤트의 목적은 법하지만 그것은, 우리가 통계 문제입니다 발생하는 문제의 대부분을 나타납니다,하지만 불행히도, 법이 항상 알 수없는 수량으로 표시, 보상, 우리는, 데이터 샘플의 일련의이 이 훨씬 덜 전체 샘플보다 수 있지만, 여전히 전체 매개 변수 추정에서 이러한 샘플을 가리 위해 행할 수 있지만, 근사 전체 확률 분포에 그린다. 이는 전체 공정의 파라미터 추정의 샘플에 기초하여 파라미터 추정한다. 파라미터의 특성에 따라,이 점과 추정 구간으로 나눌 수있다.

  

  요점은, 직접 알 수없는 인구 매개 변수를 추론 특정 샘플 통계의 추정 된 값을 사용하여 특정 매개 변수 값을 얻을 수 있습니다. 우리는 순간 추정, 최대 우도 추정 전에, 베이지안 추정 점 추정치 말했다.

  우리는 샘플에서 인구를 추정하는 방법의 순간에, 예를 들어,하는 것을 다시 모습을 예상하고있다.

 

전체 수와 샘플 수

  우리는 종종 정확하게는 전체 구성, N의 전체 수로 표현?

  전반적으로 항상 "더"개념을 제공하지만, "총"수의 다른 문제는 매우 다를 수 없습니다. 예를 들어, 양조장은 연간 10 백만 맥주를 통조림 생산하는 클래스의 학생 수는 60 또는 10 만, 전반적인있다인지, 60 명입니다. N의 전체 숫자로 표현.

  전체 샘플은 물론, 샘플링, 샘플링을 참조 할 수있는 것으로 추정되기 때문에 : 데이터 분석 (4) - 잡담 샘플링 | 겉으로는 무작위 표본 박람회가 정말 공정한 여부? . 이 m과 샘플들의 수를 나타낸다.

예상 인구 평균

  큰 범위로 결정되는 의사의 혈액 검사 결과에 따라 달라집니다. 끝에서 혈액 어쩌면 행운, 모르겠, 성적표는 시간이 좀 걸릴 것입니다,이 시간을 얻기 위해 10 분 도착, 그것은 시간을 기다릴 수 있습니다. 이제 샘플들의 세트를 획득 = {X-X . 1 , X 2 , ..., X의 m } 여기서 단일 보고서 전에 대기 시간을 환자의 취득을 나타내는 데이터의 각. 우리의 목표는 추정을 할 수있는이 그룹 전체 평균 대기 시간의 샘플을 기반으로합니다.

  계산은 매우 간단합니다, 그냥 표본 평균을 계산해야한다 :

  우리는 샘플 분포의 전반적인 분포는 현재 대략 일반적인 설명 알려진 최선의 데이터를 기반으로 평균 값과 비슷하다고 생각합니다. 샘플 평균 인구 평균 모멘트 추정 방법이 추정의 결과는 점 추정치는 인구 평균의 추정치이다,라고합니다.

  다음 코드는 배포 및 샘플링 분포 사이의 전체적인 관계를 나타낸다 :

오기 NumPy와 AS NP
 임포트 AS의 PLT를 matplotlib.pyplot
 에서 SciPy 오기 통계 
 = plt.figure (figsize = (10 ,. 5 )) 
plt.subplots_adjust (HSPACE = 0.5)   #는 서브도 사이의 위쪽 및 아래쪽 여백 조정 

MU를 sigma_square = 30, 5 # 평균 및 분산 
시그마 sigma_square = 0.5 ** # 표준 편차 
XS = np.arange (15, 45, 0.5 ) 
YS = stats.norm.pdf (XS, MU, 시그마) 
AX = fig.add_subplot을 (2, 2 ,. 1 ) 
ax.plot (XS, YS, 라벨 = ' 밀도 곡선 ' ) 
ax.vlines (MU, 0,0.2, 선 스타일 = ' - ' , 컬러 = ' R ' , 라벨 = ' 均值' ) 
ax.legend (LOC = ' 오른쪽 ' ) 
ax.set_xlabel ( ' X ' ) 
ax.set_ylabel ( " PDF " ) 
AX. set_title ( ' X ~ N ($ \ MU $, $ \ 시그마 ^ 2 $), $ \ MU $ = {0}, $ \ 시그마 ^ 2 = $ {1} ' .format (MU, sigma_square)) 

에 대한 I 에서 [1, 2, 3 ] : 
    m = 10 ** I # 样本数量
    np.random.시드 (m) 
    XStats.norm.rvs = (LOC = MU 시그마 스케일은, m = 사이즈) # 1 이 정규 분포 확률 변수 상기 m 생성 
    X-np.trunc = (X-) #의 데이터 반올림 
    ) (= mu_x X.mean을 # 샘플 평균 
    AX = fig.add_subplot (2,2 ,. 1 + I ) 
    ax.hist (X-, 빈들 = 40 ) 
    ax.set_xlabel ( ' X- ' ) 
    ax.set_ylabel ( ' 주파수 ' ) 
    ax.set_title ( ' m = {0} 샘플을 의미한다. (1)} = { ' .format (m, mu_x)) 

plt.rcParams [ ' font.sans serif- ' ] = ' SimHei ' ]   # 정상 표시 태그 중국어
# Plt.rcParams [ 'axes.unicode_minus'] = 부정 거짓 해결하지 축 디스플레이 문제 중국어 좌표 
plt.show ()를

  당신은 더 가까이, 더 많은 샘플을 촬영, 샘플 분포의 전체 분포를 볼 수 있습니다. 평균 기호의 문제가 동안 다양한 재료에,이 x는 것과 결국, A가 꺼내 것입니다, μ있는 모자 μ를 착용 할 것입니까?

  에서는 항상 X- (μ, σ에 맞춰의 문제 ~ N의 일부를 상기 한 과거 2 된 최우 추정 결과 결과, μ는 전체 평균 임) 분포, 전체 평균의 샘플을 통해 이러한 점을 설명하기 위해 상기 추정 금액.

분산의 추정 전반적인

  우리는 이전에 평균 점수 추정 계산량 있다고 가정 동일한 총 분산으로서 산출하는 샘플의 분산을 계산하는 것이 가능하다?

  당신이 위의 전체지도를 볼 수 있습니다에서 대부분의 데이터에 집중 평균 근처의 작은, 발생하는 극단적 인 값의 확률은 샘플, 수 작은 샘플 크기가 극단적 인 값의 가능성을 얻을 수 있다고하는 수단 매우 낮다. 시료의 변동 가능성 전체 변동보다 낮게하므로 분산이 매우 낮은 표시로 인해 샘플의 극단적 인 값의 확률, 기대 변동에 관련된 데이터의 특징의 차이는 전체적인 분산보다 작다. 이러한 상황에 대처하기 위해, 우리는 종종 볼 수있는 표본 분산을 계산하는 또 다른 공식은 다음과 같습니다

  A / (m - 1) ① ② 그 결과보다 약간 큰 A / m의보다 확실히 큰, m의 값이 작을수록, 더 큰 차이 ①과 ②. 샘플의 수가, 기회가 극단적 인 값이 커질수록 얻을 수 차이 ①과 ② 작아지고됩니다. 포인트는 보통 S, 전체 시료의 분산의 추정 분산을 2 발현이.

  그것은 가치가 이러한 샘플, ①의 직접 사용의 실제 분산을 계산할 때 우리는 m 샘플이있는 경우, 그 언급이며, ② 이러한 샘플의 모집단 분산을 사용해야 추정하는 데 사용됩니다.

전체의 비율을 추정

  많은 사람들이 30 분 이내에 성적표를 받게됩니다, 많은 사람들도 더 이상 기다릴 필요가 있습니다. 우리는 (30 분 이내에 보고서를 얻을 수있는 사람 수) 성공적인 샘플 수의 비율을 계산하고 포인트의 추정 금액의 전체 확률의 비율로 사용할 수 있습니다 :

  到目前为止,点估计仍然很简单,所以经常有人吐槽:概率这么简单的玩意有啥值得研究的?

样本出现的概率

  经过多年的统计分析,医院已经明确告知,每个患者都有50%的概率会在30分钟内拿到报告单。我们用p=50%表示总体中所有在30分钟之内拿到报告的人数的占比。如果把一个患者在30分钟之内拿到报告看作成功,用随机变量X表示m个样本中的成功数量,那么X符合参数为m和p的二项分布,X~B(m, p),即成功次数符合试验次数和成功率的二项分布。保持试验次数m不变,二项分布近似于均值为mp、方差为mpq的正态分布(q = 1 - p)。

  下面的代码画出了二项分布和其近似的正态分布:

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

fig = plt.figure(figsize=(10, 6))
plt.subplots_adjust(hspace=0.8, wspace=0.3)  # 调整子图之间的边距

p = 0.5 # 每次试验成功的概率
q = 1 - p # 每次试验失败的概率
m_list = [10, 15, 20] # 试验次数
c_list = ['r', 'g', 'b'] # 曲线颜色
m_max = max(m_list)

# 二项分布 X~B(m,p)
for i, m in enumerate(m_list):
    ax = fig.add_subplot(3, 2, i * 2 + 1)
    xs = np.arange(0, m + 1, 1) # 随机变量的取值
    ys = stats.binom.pmf(xs, m, p) # 二项分布 X~B(m,p)
    ax.vlines(xs, 0, ys, colors=c_list[i], label='m={}, p={}'.format(m, p))
    ax.set_xticks(list(range(0, m_max + 1, 2))) # 重置x轴坐标
    ax.set_xlabel('X')
    ax.set_ylabel('pmf')
    ax.set_title('X~B(m, p)')
    ax.legend(loc='upper right')

# 保持二项分布试验的次数m不变,二项分布近似于均值为mp、方差为mp(1-p)的正态分布:
for i, m in enumerate(m_list):
    ax = fig.add_subplot(3, 2, i * 2 + 2)
    xs = np.arange(0, m + 1, 0.1) # 随机变量的取值
    mu, sigma = m * p, (m * p * q) ** 0.5
    ys = stats.norm.pdf(xs, mu, sigma)
    ax.plot(xs, ys, c=c_list[i], label='m={}, p={}'.format(m, p))
    ax.set_xticks(list(range(0, m_max + 1, 2)))  # 重置x轴坐标
    ax.set_xlabel('X')
    ax.set_ylabel('pdf')
    ax.set_title('X~N(mp, mpq)')
    ax.legend(loc='upper right')

plt.show()

  某天来了20名患者,其中有12人在30分钟之内拿到了报告单(12个成功)。根据二项分布,这种情况出现的概率是:

  100天过去,每天都有20名患者接受验血,xi人在30分钟内拿到了报告,每天的样本都对应一个概率:

  上式中所有m­i的数量都是20,之所以用m­i表示,是为了强调虽然每天的样本数量一致,但样本本身是不同的。如果将这些概率也看成随机变量,那么这些变量也必然会符合某一个分布,只要弄清这个分布,就能回答产生某个样本的概率。既然可以通过样本知道样本中成功数量的占比,那么这个分布也就等同于“样本中成功数量的占比”的概率。比如第10天的样本中成功数量的占比是p10=45%,我们的目标是了解p10产生的概率有多大,即P(p10)=?换句话说,我们希望知道所有Pi(X=xi)构成的分布。

  

  我们用ps表示某个特定样本中成功数量的占比,借助期望和方差来窥探ps的分布。一个明显的关系是,如果总体中有50%的人可以在30分钟内拿到报告,那么我们也同样期望在样本中看到这个比例,这也是我们能够用样本估计总体的基础。用随机变量X表示样本中成功的数量,ps = X/m:

  我们已经知道X~B(m, p),这里m是样本数量,p是每个样本成功的概率,是预先给出的。二项分布的期望是E[x] = mp,方差是Var(X)=mpq,q = 1 – p,因此:

  E[ps]告诉我们,样本中成功数量的占比与整体中成功数量的占比一致;Var(p­s)告诉我们,m越大,p­s的方差越小,样本中成功数量的占比越近总体中成功数量的占比,用ps来估计p越可靠。既然二项分布X~B(m, p)可以由X~N(mp, mpq)来近似,那么p­s =X/m也可以由p­s~N(p, pq/m)来近似。对于本例来说,p=0.25,pq/m=0.0125:

  值得注意的是,比例的分布刻画的是样本成功数占比(即X/m)的变化情况,而二项分布刻画的是特定数量的样本中成功数(即X)的变化情况。比例的取值范围是[0, 1],因此在描述ps的分布时,随机变量的有效取值范围是[0, 1]。当m固定时,每个成功数占比都代表一个特定的样本,我们可以借用ps的分布计算从总体中抽样出某个固定数量样本的概率。

连续性修正

  对于二项分布来说,保持试验次数n不变,二项分布近似于均值为np、方差为npq的正态分布。这里特别强调了“近似于”,是因为二项分布的随机变量是离散型的,而正态分布的随机变量是连续型,但是这又有什么关系呢?

  这里先要了解一下离散型分布函数和连续型分布函数的特点。对于连续型分布来说,其分布函数是用密度函数的积分表示的:

  对于积分来说,a~b的区间与是否包含a点或b点没什么关系,对于连续型随机变量的累积概率来说:

  但是上式对于离散型随机变量并不成立。下面是一个离散型分布函数,纵坐标的c.d.f是累积分布函数(cumulative distribution function)的缩写:

  上图向我们展示了P(X < 1) = 0,P(X ≤ 1) = 0.5。这意味着对于离散型随机变量来说,经常有P(x ≤ a) ≠ P(x < a)的情况(并不总是不等,这要看a的取值,对于上图来说,P(X < 1.5) = P(X ≤ 1.5)),而连续型随机变量总是有P(x≤a) = P(x<a)。

  

  μ=50,σ2=25的正态分布X~N(μ, σ2)可以用来近似n=100,p=0.5的二项分布X~B(n, p),下图是二者的分布函数(注意这里的曲线是分布函数,而不是密度函数):

  可以看出,由于二项分布的离散型随机变量只能取到整数,因此它的分布函数是阶梯状的,而正态分布的曲线穿过了每个阶梯的中心点,将阶梯分成了两部分,左半部分离散分布大于连续分布,右半部分则相反:

  分别用FB(x)=PB(X≤x)和Fn(x)=Pn(X≤x)表示二项分布和正态分布的分布函数,对于整数x来说,在[x, x+0.5)区间内,FB(x) > Fn(x);在(x+0.5, x+1)区间内,FB(x) < Fn(x);只有在中心点,才有FB(x) = Fn(x)。

  现在问题来了,用正态分布去做近似的时候,如果直接用FN(x)去近似PB(X<x),那么结果会偏大;如果用FN(x)去近似PB(X≤x),则结果会偏小:

  时大时小并不是个好主意,我们想要的是一个一致的近似,要么总是大,要么总是小。一个办法是对于X的正态连续性修正为±0.5,即用FN(x+0.5)去近似PB(X < x)和PB(X ≤ x),得到的结果不会偏小;或用FN(x-0.5)去近似PB(X < x)和PB(X ≤ x),得到的结果不会偏大。这有点类似于用黎曼和计算积分时选用左矩形公式还是右矩形公式:

  回顾上一节的内容,我们计算出了样本占比p­s的正态分布近似,p­s的连续性修正为:

  

  借助连续性修正可以求得:

 


  出处:微信公众号 "我是8位的"

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

  扫描二维码关注作者公众号“我是8位的”

추천

출처www.cnblogs.com/bigmonkey/p/12290228.html