一、概率分布

首先说一下概率论的重要性。机器学习往往需要处理不确定量，而概率论则是用于声明不确定性的数学工具，提供了量化不确定性的方法和导出新不确定性的公理，因此概率论是机器学习很重要的基础。概率论中最主要的便是概率分布的研究，下面给出几种常用的概率分布。

1、Bernoulli 分布（伯努利分布）

伯努利分布是单个二值随机变量的分布，由参数 \(\phi\in\left[0,1\right]\) 控制， \(\phi\) 表示随机变量为1的概率：

\[ P(x=1)=\phi \]
\[ P(x=0)=1-\phi \]

可以合并为：

\[ P(x)=\phi^{x}\left(1-\phi\right)^{1-x} \]

2、Multinoulli 分布（范畴分布）

范畴分布指 k 个不同状态的单个离散型随机变量的分布， k 为有限值。该分布由向量 \(p\in\left[0,1\right]^{k-1}\) 参数化，每个分量 \(p_{i}\) 表示第 i 个状态的概率，最后第 k 个状态的概率由1减去前 (k-1) 个状态的概率和得到。

3、高斯分布（正态分布）

因为中心极限定理及高斯分布的最大不确定性等原因，高斯分布是实数上最常用的分布。

\[ N\left(x;\mu,\sigma^{2}\right)=\sqrt{\dfrac{1}{2\pi\sigma^{2}}}\exp\left(-\dfrac{1}{2\sigma^{2}}\left(x-\mu\right)^{2}\right) \]

其中 \(\mu\) 是分布的均值， \(\sigma^{2}\) 是分布的方差。

当高斯分布推广到 \(R^{n}\) 空间时，被称为多维正态分布：

\[ N\left( \overline {x},\overline {\mu },\Sigma \right) =\sqrt {\dfrac {1}{\left( 2\pi \right) ^{n}\det \left( \Sigma \right) }}\exp\left( -\dfrac {1}{2}\left( \overline {x}-\overline {\mu }\right) ^{T}\Sigma ^{-1}\left( \overline {x}-\overline {\mu }\right) \right) \]

其中向量 \(\overline{\mu}\) 是分布的均值， \(\Sigma\) 是正定对称矩阵，表示分布的协方差。

4、指数分布

指数分布是可以在 x=0 点处取得边界点的分布，通常深度学习中需要用到该分布。

\[ p\left( x;\lambda \right) =\lambda 1_{x\geq 0}\exp \left( -\lambda x\right) \]

其中指数函数 \(1_{x\geq 0}\) 表示当 x<0 时的概率为 0。

5、Laplace 分布

Laplace 分布允许我们在任意一点 \(\mu\) 处设置概率质量的峰值。

\[ Laplace\left( X;\mu ,\gamma\right)=\dfrac {1}{2\gamma }\exp\left( -\dfrac {\left| x-\mu \right| }{\gamma }\right) \]

6、Dirac 分布

Dirac 分布的所有质量都集中在一点，可以通过Dirac delta 函数（即脉冲函数）来定义概率密度函数来实现：

\[ p(x)=\delta\left(x-\mu\right) \]

7、经验分布

经验分布将概率密度 \(\dfrac{1}{m}\) 赋给 m 个点中的每一个。

\[ \widehat {P}\left( x\right) =\dfrac {1}{m}\sum ^{m}_{i=1}\delta \left( x-x^{\left(i\right)}\right) \]

二、处理概率分布的常用函数

1、logistic sigmoid 函数

通常用来产生伯努利分布中的参数 \(\phi\) ，范围是 (0,1)。

\[ \sigma \left( x\right) =\dfrac {1}{1+\exp \left( -x\right) } \]

softplus 函数

可以用来产生高斯分布的参数 \(\sigma\) ,范围是 \(\left(0,\infty\right)\)。

\[ \zeta \left( x\right) =\log \left( 1+\exp \left( x\right) \right) \]

机器学习笔记--概率论基础