《概率论基础教程》总结2 随机变量、期望、方差

一随机变量

1、基本概念

随机变量定义：随机变量在不同的条件下由于偶然因素影响，其可能取各种随机变量不同的值，具有不确定性和随机性，但这些取值落在某个范围的概率是一定的，此种变量称为随机变量。
随机变量首先是一个变量。昨天的天气，你的高考成绩都是随机变量，不过这些是确定无疑的，相反随机变量结果不确定。

累计分布函数定义：
这里写图片描述
这里X为实随机变量，即取值为实数的随机变量。

2、常见随机变量：

（离散）伯努利变量：变量取值1或0，取值1概率为p，取值0概率为1-p。
期望p，方差p(1-p)。
（离散）二项随机变量：进行n次独立重复实验，每次成功概率p，总共成功次数x是二项随机变量。记为参数为(n,p)的随机变量。二项随机变量可以看做是n个独立同分布伯努利变量的和构成的随机变量。
二项分布分布列（概率质量函数）：
这里写图片描述
期望np，方差np(1-p)。
（离散）泊松随机变量：现实生活中很多显现服从泊松分布，举几个例子：医院每天接待的病人数、超市某商品每天的销售数、公司每天接到电话数、一本书中错别字个数。这些问题中存在一个单位范围：一天、一页书。这个单位范围中某事件发生的次数就符合泊松分布。参数lambda可以在更大范围统计平均值得到：一年中平均每天病人数、整本书中平均一页错别字数。
一个明显的问题是，为什么这些问题付聪泊松分布，而不是其他的比如正态分布？这个涉及到概率论更高级的问题，叫做泊松过程，如果事件是一个泊松过程，那么它就服从泊松分布。具体学习随机过程教程。
泊松分布分布列：
这里写图片描述
上式表示，在t个单位时间内，发生n次事件的概率。
当t为一个单位时间时，又可以如下表示：

泊松分布的均值、方差都等于参数 $\lambda$ (lambda)

另外，在某些条件下，二项分布可以用泊松分布近似。
（连续）均匀随机变量
概率密度函数：
这里写图片描述
均值方差：

（连续）正态随机变量
正态分布大概是概率论中最重要的随机分布了。一个原因是因为中心极限定理说明了多个随机变量的和服从正态分布。生活中的例子有：身高的分布、测量误差的分布。实际上，正态分布在现实生活中并没有那么常见，相反指数正太分布更常见（即是一个随机变量的对数值服从正态分布）。
正太分布密度函数：
这里写图片描述
均值方差分别为 $\mu$ 和 $\sigma^2$ 。

正态分布的计算：
正态分布的计算过程是根据均值方差的特点，将正态分布化为均值0、方差1的标准分布。然后查表计算概率值。
正态分布可以用于近似二项分布，在计算离散值时需要进行连续性修正。

（连续）指数随机变量：
指数分布概率密度函数：
这里写图片描述
实际上，指数分布表示了现实生活中事件发生的时间间隔的概率。神奇的是，指数分布可以由泊松分布推倒而来：下一次事件发生的时间间隔大于 t 的概率等于泊松分布中 t 时间内发生0次该时间的概率。可以证明指数随机变量的公式可以由泊松分布得到。
所以指数随机变量和泊松随机变量紧密相关，一个衡量了一段时间内发生次数的概率，另一个衡量了事件之间等待时间的概率。

指数分布的无记忆性：
无记忆性表现为：
$P\{ X > s + t | X > t \} = P \{ X > s \}$
或者写为：
$P\{ X < s + t | X > t \} = P \{ X < s \}$
也就是说，下一次事件如果在 t 时间内没发生，那么在 (t, t + s) 时间里发生的概率和在(0, s) 时间内发生的概率相同。也就是长度为 t 的时间对分布没有影响，或者说，被遗忘了。

更高级的概率分布：
$\Gamma$ (Gamma)分布：
参数为（n， $\lambda$ ）的gamma分布，在n为整数时，表示了时间发生n次需要的等待时间的分布。当n为1时，即是指数分布。实际上，参数为n的gamma随机变量是n个指数随机变量的和。所以，根据中心极限定理，当n很大时，gamma分布会趋近于正态分布。

卡方分布：
卡方分布也是由gamma分布而来，取gamma分布的参数为（1/2， n/2）即得到自由度为n的卡方分布。
卡方分布常出现在误差分布中，例如n维空间上每个维度的偏差服从标准正态分布，那么最后整体的误差的平方（也是各个维度的偏差的平方和）服从自由度为n的卡方分布。

3、随机变量的联合分布

两个变量的联合概率密度函数/分布函数：即是有两个变量的密度函数/分布函数。
边缘分布：联合分布函数中，其中一个变量取无穷，得到另一个变量的边缘分布函数。

条件分布：
随机变量的条件分布和事件的条件概率相同。有公式：
这里写图片描述
左边的是已知x条件下y的概率密度函数，右边是xy联合概率密度函数除以x的边缘概率密度函数。离散情况类似。
独立随机变量：
xy两个变量独立，如果y的边缘密度函数等于已知x时y的条件密度函数，或者反过来。也就是说，x的值不影响y的分布。
两个独立的随机变量的联合密度函数等于各自的密度函数的乘积。
xy两个随机变量独立的充分必要条件是：xy的联合概率密度函数可以分解为两个部分，一个部分只和x有关，另一个部分只和y有关。

独立性的对称性：
独立性的对称性是指，如果x独立于y，那么y也是独立于x的。独立性总是双向同时存在的，有时候无法判断X是否独立于Y，不妨换个角度判断Y是否独立于X。

独立随机变量和的分布：
随机变量XY和为Z时，Z随机变量的概率密度函数为：
这里写图片描述
两个相同的均匀分布的和的分布，变成了三角形。
gamma分布的和还是gamma分布。（参数不同）
神奇的是，上面的式子被称为求卷积。

二、期望、方差、协方差

1、期望

期望的定义：
离散：
这里写图片描述
连续：

如何理解呢，根据离散随机变量的期望定义，期望是随机变量可能值的加权平均，权重是每种可能值的概率。期望定义了一个随机变量取值的大概位置（用加权平均衡量）。

期望的性质：
1、期望是线性函数：
这里写图片描述
这条性质、以及方差的性质保证了任意的正态分布可以化为标准分布。
2、随机变量函数的期望：

3、随机变量和的期望：
随机变量和的期望等于期望的和。注意，这条性质并不要求各个随机变量之间独立。根据这个性质，可以很容易的从伯努利随机变量的期望推出二项随机变量的期望。
4、期望值是一个常数：
根据定义计算方差时，会遇到 $E[XE[X]] = E[X]^2$ 这个步骤，如何理解这个过程呢？我看来，任何随机变量的期望都是固定的，是一个常数。算式中里面的期望可以像常数一样提出来。另外可以知道，期望的期望就是期望本身。

2、方差、协方差

方差的定义：
这里写图片描述
方差用来表示随机变量取值的离散程度。 $|X-\mu|$ 是随机变量值到均值的距离，叫做离差。为了数学处理上的方便才使用了离差的平方，离差平方的期望就是方差。
化简得到方差的简化计算公式：

协方差的定义：
定义公式：
这里写图片描述
协方差是衡量了两个随机变量整体偏离均值点的程度。
另一种表达：

从这个公式可以看出，当两个变量互相独立时，协方差为0。

方差、协方差的性质：
1、随机变量带常数参数：
$Var(aX + b) = a^2Var(X)$
2、多个随机变量的方差：
这里写图片描述
可以看出，当随机变量序列互相独立时，随机变量和的方差就等于各个随机变量方差的和。

相关系数：
注意，由于量纲的不统一，协方差并不能用来计算两个变量的线性相关性，这需要使用相关系数。

三、概述内容

1、零散内容

这里概括一些没有提到的简短但是重要的内容。
1、极限定理：
弱大数定理、强大数定理：主要意思都是：在n趋近无穷时，n个独立同分布随机变量的平均值趋近于该分布的期望。
中心极限定理：在n趋近无穷时，n个独立随机变量的和趋近于标准正态分布。
2、各个分布之间的转换
各种分布之间有着更深入的相互联系，某些极限情况下，会发生转换。

2、深入内容

这里总结在学习本书过程中跳过的内容：
1、第七章：条件期望
结合条件概率和期望。讨论条件期望的特殊性质。
2、第七章：矩母函数
这个函数可以方便的计算随机变量的各阶矩，因而得名。（n阶矩： $E[X^n]$ ）
3、第九章：泊松过程、马尔科夫链、熵
4、第十章：模拟
讲的是如何模拟出各种随机过程。第一个问题是产生一个服从(0,1)均匀分布的随机数。接下来，由这个随机数，构造其他更为复杂的随机数，随机过程。