概率密度,概率分布和联合概率分布
刚开始学机器学习的时候,很多概念都没有理解清楚,现在对一些基础概念进行一下整理。
1.离散型随机变量和连续型随机变量
离散型随机变量,例如骰子的点数,取值只可能是1-6。连续型随机变量,例如温度,小数点后可能有很多位,是无法精确测量的,不可数。
所以可以简单理解为,取值可数的变量是离散型随机变量,取值不可数的变量是连续型随机变量。
2.概率密度和概率分布
对于离散型随机变量X,取得某一个值x的概率为 P ( X = x ) P(X=x) P(X=x),X的概率分布函数是 F X ( x ) = P ( X < = x ) F_X(x)=P(X<=x) FX(x)=P(X<=x). 例如扔一个均匀的骰子,扔到3的概率为1/6,扔到的点数小于4的概率为P(X<=4)=1/6+1/6+1/6=1/2。 当X的取值只有0和1两种情况时,称为二进制变量。
对于连续型随机变量X,由于是连续的,所以在一个具体的取值上是没有概率的。这就好比一个面是有面积的,但面上的每一个点是没有面积的,但是无数个点又组成了一个面。因此我们引入概率密度的概念,假设有一个非常小的区间 Δ h \Delta h Δh,那可以近似认为随机变量X在某一个点x上的取值概率为:
f ( x ) = lim Δ h → 0 P ( x − Δ h / 2 ≤ X ≤ x + Δ h / 2 ) Δ h \begin{aligned} f(x)=\lim_{\Delta h \to 0}\dfrac{P(x - \Delta h/2 \leq X\leq x+\Delta h/2)}{\Delta h} \end{aligned} f(x)=Δh→0limΔhP(x−Δh/2≤X≤x+Δh/2)
这就是概率密度的来源。因此,概率分布函数是概率密度函数的积分(可以看作一种求和)。那么在知道概率密度函数的情况下,就可以由点的近似面积(虽然实际不存在)去求得1000个点构成的面的面积了,也就是求得连续性随机变量在一个范围内的取值概率。
随机变量 | 单一取值概率 | 多取值概率 |
---|---|---|
离散型 | 概率函数 | 概率分布函数 |
连续型 | 概率密度函数 | 概率分布函数 |
3.联合概率密度和联合概率分布
在生活中,随机变量可能不仅仅只有一个,例如,一个人能够交到女朋友的概率,除了受他自身的硬实力(身高长相性格)的影响,也受软实力(家境,车房)的影响。
联合概率指的是几个事件同时发生的概率。假设硬实力A有好,中,差三种可能,软实力B也有好,中,差三种可能。那么一个人的硬实力A和软实力B的组合一共有9种可能。A和B的联合概率密度函数 P ( A B ) P(AB) P(AB)就是赋予这9种可能组合不同的概率,也可以写作 P ( A ∩ B ) P(A\cap B) P(A∩B)或者 P ( A , B ) P(A,B) P(A,B)。