Python----概率论与统计(随机变量,离散概率分布,连续概率分布,期望,方差,标准差,多维随机变量)

一、随机变量

1.1、定义

        给定一个随机试验,如果对试验中每一个可能出现的结果w,都 有一个实数X(w)与之对 应,那么就把这个实值单值函数X=X(w)叫做随机变量。

        在概率论中,随机变量(Random Variable)是对可能结果的数值化描述,它是对随机 事件的数学抽象。

例如:

        随机抛一枚硬币,只有两种可能的结果:正面、反面。

        如果记正面为1,反面为0

        即随机变量为:X(正面)=1,X(反面)=0。

1.2、分类

分布函数

        设X是一个随机变量(包括离散型和非离散型),x是任意实数,称

        函数F(x)=P(X ≤ x)为随 机变量X的分布函数。

注意

        离散型随机变量在某一范围内取值的概率等于它取这个范围内各个值对应的概率之和

        连续型随机变量取某个确定值的概率值是0 

二、概率分布

        离散概率分布与连续概率分布

        概率分布是离散的或者连续的,具体取决于所描述的随机变量的性质。

        典型的离散概率分布包括:伯努利分布、二项分布、泊松分布等。

        这些分布用概率质量函数(Probability Mass Function,PMF)来描述,PMF指定了每个可能取 值的概率。

        典型的连续概率分布包括:正态分布、指数分布、均匀分布等。

        这些分布用概率密度函数(Probability Density Function,PDF)来描述,PDF给出了在某个区 间内的概率密度。

三、离散概率分布

         若随机变量X的所有可能取值为有限个或可列无限个,则称X为离散 型随机变量 对于离散型随机变量及其对应的概率有如下性质:

四、伯努利实验与伯努利分布

4.1、伯努利实验

        伯努利实验是指一个只有两种可能结果的随机实验,这两种结果通常被称为“成功”和“失败”。在 伯努利实验中,成功的概率是固定的,记为p,而失败的概率则是1−p。

        伯努利实验强调的是实验的性质:即任何单次的试验都只有两个可能的结果,而且每次实验是独 立的,意味着前一次试验的结果不会影响后一次试验的结果。

 4.2、伯努利分布

        伯努利分布是描述伯努利实验结果的概率分布。具体来说,如果将“成功”定义为1,“失败”定义为0,则伯努利分布可以用来描述在单次伯努利实验中获得特定结果(成功或失败)的概率。伯努利分布的概率质量函数(PMF)表达为:

 其中,x 只能取0或1,代表失败或成功

  实例:

        考虑抛一枚公平的硬币的实验,硬币落地时“字”朝上的概率是0.5,“花”朝上的概率也是0.5。

        这个实验就可以用伯努利分布来描述。 可以定义“硬币正面朝上”为成功(X=1),那么“硬币反面朝上”自然就是失败(X=0)。在这个例子中,成功的概率p=0.5,因此:

4.3、n重伯努利实验

做了n次试验,且满足

(1) 每次试验只有两种可能结果,即A发生或A不发生

(2) n次试验是重复进行的,即A发生的概率每次均一样

(3) 每次试验是独立进行的,即每次试验A发生与否与其他次试验A 发生与否是互不影响的

这种试验称为伯努利概型,或称为n重伯努利试验

定理:

        在n重伯努利试验中,用p表示每次试验A发生的概率,记 n次试验中事件A出现k次,则

五、二项分布

        二项分布是伯努利分布的推广,它描述的是在固定次数n 的独立重复试验中成功的次数的分布。

        其中每次试验每次试验都是一个伯努利试验,所以结果只能是成功或失败(是/否,1/0等二元结 果)。并且各次试验是独立的。

特点:

        试验的二元性:每次试验只有两种可能的结果,通常称为成功和失败。

        独立性:每次试验的结果不受其他试验结果的影响。

        固定的试验次数:进行试验的总次数是固定的。

        固定的成功概率:每次试验中成功的概率是相同的。 

六、泊松分布

        泊松分布(Poisson Distribution)描述了在固定时间内,发生某一事件的次数的概率分布,前提是这些事件是以恒定平均率独立地随机发生的。

特点:

        事件独立性:每个事件的发生都是独立的,与其他事件的发生没有直接的关系。

        平均率恒定:在给定的时间段或区域内,事件发生的平均率是恒定的。

        随机性:在很小的时间间隔内,事件恰好发生一次的概率与时间间隔成正比,而发生多次的概率 趋向于零。

泊松分布与二项分布:

        当试验次数n很大、成功概率p很小,而n*p保持一定的数值时,二项分布可以用泊松分布来近似。 

七、连续概率分布

        对于有些问题,我们并不感兴趣随机变量取某一个值的概率,而 是感兴趣其落在某个区间的概率。例如:灯泡的寿命,我们并不感 兴趣其寿命恰好为2.53年的概率,而对其寿命在某一个区间的概率 进行研究。这样就引出了连续型随机变量。

八、均匀分布

        很好理解,a和b这个区间内取任意一个值的概率相等

九、正态分布

        正态分布是一种连续型随机变量分布

十、规则化与标准化

        对数据进行中心化:将数据减去均值,使得数据的均值变为0。对数据进行缩放:将数据除以标准差,使得数据的标准差变为1。

十一、数学期望

        在一个离散概率分布或者连续概率分布中,从中随机抽取一个样本,预计的这个样本的平均值 是多少?这称为期望值。

11.1、离散型

注意

        对概率大的取值,该值出现的机会就大,也就是在计算取值的 平均时其权重就大,因此用概率作为一种“权重”做加权计算平均 值 

11.2、连续型

十二、方差

        随机变量X的方差反映了X与其数学期望E(X)的偏离程度,如果X 取值集中在E(X)附近,则 方差D(X)较小;如果X取值比较分散,则方差D(X)较大。

十三、标准差

        由于方差的特性:方差可以提供关于数据的离散程度的信息,但它的单位是数据单位的平方,这使得它不太直观。

十四、标准化分布

十五、多维随机变量及其分布

        多维随机变量是指由多个随机变量组成的向量,其取值可以是多维空间中的一个点。多维随机 变量的分布描述了这个向量的概率分布情况,即描述了各个随机变量之间以及它们与其他变量 之间的关系。

        联合分布描述了两个或多个随机变量同时取不同取值的概率情况。

        多维正态分布:也称为多元正态分布,是最常见的多维分布之一。它具有与一维正态分布类 似的性质,但是描述了多个随机变量的联合分布情况。

        多项分布:描述了多个类别的离散随机变量的分布,例如投掷一枚骰子多次的结果。

        协方差矩阵:用于描述多维随机变量之间的相关性和方差的矩阵。