机器学习---概率论基础数学知识点总结

为什么要使用概率?

概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量

机器学习大部分时候处理的都是不确定量或随机量。

概率和统计的关系

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

1.条件概率

事件A在另外一个事件B已经发生的条件下的发生概率叫做条件概率

2.联合概率

两个事件共同发生记为P(AB)

3.全概率公式

样本空间Ω有一组事件A1、A2...An
如图:

那么对于任意事件B,全概率公式为:

4.独立事件

A,B发生无关

5.先验概率

先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率.  先验概率通常是经验丰富的专家的纯主观的估计. 比如在法国大选中女候选罗雅尔的支持率 p,  在进行民意调查之前, 可以先验概率来表达这个不确定性。

6.后验概率

后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料;

7.贝叶斯公式

可由条件概率公式证明

P(B|A) 是后验概率,一般是我们求解的目标。

P(A|B) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。

P(B) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。

P(A) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到

贝叶斯公式是在说什么?

学习机器学习和模式识别的人一定都听过贝叶斯公式(Bayes Theorem)

贝叶斯公式看起来很简单,无非是倒了倒条件概率和联合概率的公式。

B展开,可以写成:

想想这个情况。一辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有小偷?撞车了? 不。。你通常什么反应都没有。因为汽车警报响一响实在是太正常了!每天都要发生好多次。本来,汽车警报设置的功能是,出现了异常情况,需要人关注。然而,由于虚警实在是太多,人们渐渐不相信警报的功能了。

贝叶斯公式就是在描述,你有多大把握能相信一件证据?how much you can trust the evidence

8.似然函数

似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

对于这个函数:

P(x|θ)

输入有两个:x表示某一个具体的数据;θ表示模型的参数。

如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如,f(x,y)=xy, xy次方。如果x是已知确定的(例如x=2),这就是f(y)=2y, 这是指数函数。 如果y是已知确定的(例如y=2),这就是f(x)=x2,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。

9.最大似然估计

假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θ)各是多少?

这是一个统计问题,回想一下,解决统计问题需要什么? 数据!

于是我们拿这枚硬币抛了10次,得到的数据(x0)是:反正正正正反正正正反。我们想求的正面概率θ是模型参数,而抛硬币模型我们可以假设是 二项分布。

那么,出现实验结果x0(即反正正正正反正正正反)的似然函数是多少呢?

注意,这是个只关于θ的函数。而最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出f(θ)的图像:

可以看出,在θ=0.7θ=0.7时,似然函数取得最大值。

 

这样,我们已经完成了对θ的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm..这非常直观合理,对吧?)

且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信θ=0.7

这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

10.最大后验概率

最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。最大后验概率估计则是想求θ使P(x0|θ)P(θ)最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

MAP其实是在最大化,不过因为x0是确定的(即投出的“反正正正正反正正正反”),P(x0)是一个已知值,所以去掉了分母P(x0)(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x0)=n/1000。总之,这是一个可以由数据集得到的值)。最大化P(θ|x0)的意义也很明确,x0已经出现了,要求θ取什么值使P(θ|x0)最大。顺带一提,P(θ|x0)即后验概率,这就是“最大后验概率估计”名字的由来。

对于投硬币的例子来看,我们认为(”先验地知道“)θ取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设P(θ)为均值0.5,方差0.1的高斯函数,如下图:

P(x0|θ)P(θ)的函数图像为:

注意,此时函数取最大值时,θ取值已向左偏移,不再是0.7。实际上,在θ=0.558时函数取得了最大值。即,用最大后验概率估计,得到θ=0.558最后,那要怎样才能说服一个贝叶斯派相信θ=0.7呢?你得多做点实验。如果做了1000次实验,其中700次都是正面向上,这时似然函数为:

如果仍然假设P(θ)为均值0.5,方差0.1的高斯函数,P(x0|θ)P(θ)的函数图像为:

在θ=0.696处, P(x0|θ)P(θ)取得最大值。

这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把θ估计在0.7附近了。

 

PS. 要是遇上了顽固的贝叶斯派,认为P(θ=0.5)=1 ,那就没得玩了。。 无论怎么做实验,使用MAP估计出来都是θ=0.5。这也说明,一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

最大似然估计和最大后验概率估计的区别

相信读完上文,MLEMAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。

11.离散型随机变量

离散型随机变量和连续性随机变量的区别

1、一批电子元件的次品数目。

2、同样是一批电子元件,他们的寿命情况。

在第一个例子中,电子元件的次数是一个在现实中可以区分的值,我们用肉眼就能看出,这一堆元件里,次品的个数。但是在第二个例子中,这个寿命它是一个你无法用肉眼数的过来的数字,它需要你用笔记下来,变成一个数字你才能感受它。在这两个例子中,第一例子涉及的随机变量就是离散型随机变量,第二个涉及的变量就是连续型随机变量。

总结:只要是能够用我们日常使用的量词可以度量的取值,比如次数,个数,块数等都是离散型随机变量。只要无法用这些量词度量,且取值可以取到小数点2位,3位甚至无限多位的时候,那么这个变量就是连续型随机变量!

理解离散型随机变量的概率分布,概率函数和分布函数

什么概率密度啦,概率分布啦,概率函数啦,都是在描述概率!

概率函数

就是用函数的形式来表达概率。

pi=P(X=ai)(i=1,2,3,4,5,6)

在这个函数里,自变量(X)是随机变量的取值,因变量(pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。从公式上来看,概率函数一次只能表示一个取值的概率。比如PX=1=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

概率分布

顾名思义就是概率的分布,这个概率分布还是讲概率的。在理解这个概念时,关键不在于概率两个字,而在于分布这两个字。为了理解分布这个词,我们来看一张图。

这样的列表被叫做离散型随机变量的概率分布。其实严格来说,它应该叫离散型随机变量的值分布和值的概率分布列表,这个名字虽然比概率分布长了点,但是对于我们这些笨学生来说,肯定好理解了很多。因为这个列表,上面是值,下面是这个取值相应取到的概率,而且这个列表把所有可能出现的情况全部都列出来了!

举个例子吧,一颗6面的骰子,有1234566个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的概率分布

长得挺像的,上面是取值,下面是概率,这应该就是骰子取值的概率分布了吧!大错特错!少了一个最重要的条件!对于一颗骰子的取值来说,它列出的不是全部的取值,把6漏掉了!

分布函数

分布函数是概率分布函数的简化叫法

我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了大于等于号的公式。你再往右看看,这是一个一个的概率函数的累加!发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!其实,我觉得叫它累积概率函数还更好理解!!

概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段!

伯努利分布

记做:

注意参数1为一次实验,p为发生事件的概率

二项分布

进行n次试验发生k次的概率

记为

泊松分布(解决的是在特定时间里发生n个事件的机率

上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。

接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。

接下来一个小时,至少出生两个婴儿的概率是80%

泊松分布的图形

几何分布

Bernoulli试验中,试验进行到A 首次出现为止

12.连续型随机变量

连续型随机变量也有它的概率函数概率分布函数,但是连续型随机变量的概率函数换了一个名字,叫做概率密度函数

概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!

左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!这样看起来是不是特别直观,特别爽!!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!

均匀分布

记为

指数分布

指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间 t ,就等同于 t 之内没有任何婴儿出生。

反过来,事件在时间 t 之内发生的概率,就是1减去上面的值。

接下来15分钟,会有婴儿出生的概率是52.76%

接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%

指数分布的图形

可以看到,随着间隔时间变长,事件的发生概率急剧下降,呈指数式衰减。想一想,如果每小时平均出生3个婴儿,上面已经算过了,下一个婴儿间隔2小时才出生的概率是0.25%,那么间隔3小时、间隔4小时的概率,是不是更接近于0?

正态分布

一般正态函数的计算,先转化为标准正态函数

13.联合分布

很多情况下,我们对于几个变量同时的取值有关问题感兴趣,例如我们需要知道事件“ lntellegence = high Grade A”的概率。分析这样的事件,则需要考虑两个随机变量的联合分布(joint distribution)。下图为联合分布的一个例子。

上图表示了随机变量 I,D,G 的一个联合分布,其中包含3个变量,分别是:I(学生智力,有01两个取值)、D(试卷难度,有01两个取值)、G(成绩等级,有123三个取值)。故而这三个离散的随机变量共有2×2×3=12 种联合分布状态。

上表中我们可以读出系统取值为这 12 个联合分布状态中任一个的概率,例如:P(I=0,D=0,G=1)=0.126

14.条件分布

当对于一组随机变量,考虑其中某些变量取值特定值时,其余变量的分布是一种条件分布问题。可以看到,条件分布率就是在边缘分布率的基础上都加上“另一个随机变量取定某值”这个条件。简单来说,对于二维离散随机变量有 

 为在 Y=yj条件下 X 的条件分布率。(其中 i为固定的),也称作该联合分布在 Y上的条件分布。 

 上面联合分布中例子来看,下图中表是概率的联合分布,表中随便去掉所有包含某个值的行,就能对分布表进行缩减。例如可以去掉所有 G 不为 1 的行,这样就只剩下了 14710 行,这样他们的概率之和就不为 1 了,所以需要重新标准化(Renormalization),从而推得原联合分布在 G上的条件分布4。如图为推导过程。

剔除无关取值(不为 1 的行)

标准化得到的值

即得到之前的联合分布在变量 Gradeg)上的条件分布为上图右边的表格。 
  反之也可以把所有含有某个值的行相加,这就是接下来要讲的边缘化(Marginalization)。由此可得联合分布在变量 D上的边缘分布如下图右表。

15.边缘分布

一旦定义了随机变量,我们就可以在能够用 X描述的事件上考虑分布。这个分布通常称为随机变量 X的边缘分布(marginal distribution) ,记为 P(X) 。这时单独只考虑 X的取值,与其它随机变量取什么值的概率无关了。

例如,上面联合分布例子里,I的边缘分布为:

P(I=0)=0.126+0.168+0.126+0.009+0.045+0.126.P(I=0)=0.126+0.168+0.126+0.009+0.045+0.126

P(I=1)=0.252+0.0224+0.0056+0.06+0.036+0.024

16.概率质量函数

PDF:概率密度函数(probability density function, 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。

CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

17.数字特征

数字特征是指能够刻画随机变量某些方面的性质特征的量称为随机变量的数字特征。比较常用的数字特征有数学期望,方差,协方差和相关系数等。

18.数学期望

也就是均值,是概率加权下的平均值,是每次可能结果的概率乘以其结果的总和,反映的是随机变量平均取值大小。 常用符号E表示

19.方差  

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

20.协方差(衡量两个变量的总体误差)

协方差的几何意义是线性相关程度,可通过分别计算分布X1,X2...Xn与Y的协方差值,把协方差值极小的分布对应的特征在训练之前排除,减小计算量,还可以使训练的模型更为准确。

21.三大基本定理

切比雪夫不等式 /切比雪夫定理

设随机变量X的期望为μ,方差为σ2,对于任意的正数ε,有:

切比雪夫不等式的含义是:DX(方差)越小,时间{|X-μ|<ε}发生的概 率就越大,即:X取的值基本上集中在期望μ附近

大数定律

随着样本容量n的增加,样本平均数将接近于总体 平均数(期望μ)

为使用频率来估计概率提供了理论支持

中心极限定理

当样本n充分大时,样本均值的抽样分布近似 服从均值为μ/n、方差为σ2/n 的正态分布。

 

参考文献:https://www.jianshu.com/p/8636f182a648

https://blog.csdn.net/thither_shore/article/details/52192553

https://www.jianshu.com/p/b570b1ba92bb

猜你喜欢

转载自blog.csdn.net/qq_38157877/article/details/85224835