概率密度，概率分布和联合概率分布

刚开始学机器学习的时候，很多概念都没有理解清楚，现在对一些基础概念进行一下整理。

1.离散型随机变量和连续型随机变量

离散型随机变量，例如骰子的点数，取值只可能是1-6。连续型随机变量，例如温度，小数点后可能有很多位，是无法精确测量的，不可数。

所以可以简单理解为，取值可数的变量是离散型随机变量，取值不可数的变量是连续型随机变量。

2.概率密度和概率分布

对于离散型随机变量X，取得某一个值x的概率为 $P (X = x)$ ，X的概率分布函数是 $F_X(x)=P(X<=x)$ . 例如扔一个均匀的骰子，扔到3的概率为1/6，扔到的点数小于4的概率为P(X<=4)=1/6+1/6+1/6=1/2。当X的取值只有0和1两种情况时，称为二进制变量。

对于连续型随机变量X，由于是连续的，所以在一个具体的取值上是没有概率的。这就好比一个面是有面积的，但面上的每一个点是没有面积的，但是无数个点又组成了一个面。因此我们引入概率密度的概念，假设有一个非常小的区间 $\Delta h$ ，那可以近似认为随机变量X在某一个点x上的取值概率为：

$\begin{aligned} f(x)=\lim_{\Delta h \to 0}\dfrac{P(x - \Delta h/2 \leq X\leq x+\Delta h/2)}{\Delta h} \end{aligned}$

这就是概率密度的来源。因此，概率分布函数是概率密度函数的积分(可以看作一种求和）。那么在知道概率密度函数的情况下，就可以由点的近似面积（虽然实际不存在）去求得1000个点构成的面的面积了，也就是求得连续性随机变量在一个范围内的取值概率。

随机变量	单一取值概率	多取值概率
离散型	概率函数	概率分布函数
连续型	概率密度函数	概率分布函数

3.联合概率密度和联合概率分布
在生活中，随机变量可能不仅仅只有一个，例如，一个人能够交到女朋友的概率，除了受他自身的硬实力（身高长相性格）的影响，也受软实力（家境，车房）的影响。

联合概率指的是几个事件同时发生的概率。假设硬实力A有好，中，差三种可能，软实力B也有好，中，差三种可能。那么一个人的硬实力A和软实力B的组合一共有9种可能。A和B的联合概率密度函数 $P (A B)$ 就是赋予这9种可能组合不同的概率，也可以写作 $P(A\cap B)$ 或者 $P (A, B)$ 。

概率密度，概率分布和联合概率分布

概率密度，概率分布和联合概率分布

猜你喜欢