高等数学(概率论)

一.微积分与逼近论

遇到的数学符号:

  • ∑:西格玛 Sigma 
  • θ:西塔 Theta 
  • μ:缪 Mu 
  • α:阿尔法 Alpha

1.什么是微积分?

微积分学,数学中的基础分支。内容主要包括函数、极限、微分学、积分学及其应用。函数是微积分研究的基本对象,极限是微积分的基本概念,微分和积分是特定过程特定形式的极限。

扩展:函数的概念

(1)函数的定义

给定一个数集A,假设其中的元素为x。现对A中的元素x施加对应法则f,记作f(x),得到另一数集B。假设B中的元素为y。则y与x之间的等量关系可以用y=f(x)表示。我们把这个关系式就叫函数关系式,简称函数。首先要理解,函数是发生在集合之间的一种对应关系。

(2)函数的三要素

  • 定义域A
  • 值域C
  • 对应法则f

其中核心是对应法则f,它是函数关系的本质特征。函数的对应法则通常用解析式表示,但大量的函数关系是无法用解析式表示的,可以用图像、表格及其他形式表示。

(3)函数的概念

在一个变化过程中,发生变化的量叫变量(数学中,常常为x,而y则随x值的变化而变化),有些数值是不随变量而改变的,我们称它们为常量。

  • 自变量(函数):一个与它量有关联的变量,这一量中的任何一值都能在它量中找到对应的固定值。
  • 因变量(函数):随着自变量的变化而变化,且自变量取唯一值时,因变量(函数)有且只有唯一值与其相对应。
  • 函数值:在y是x的函数中,x确定一个值,y就随之确定一个值,当x取a时,y就随之确定为b,b就叫做a的函数值。

函数是初等数学中的概念,在高等数学中同样适用,这是微积分讨论的对象。有输入,也有对应的输出,满足这样的功能的都叫映射,或者函数,只不过函数更侧重于数这个变量。编程中有参数,有 return,都叫函数,而函数的本来意思就是功能,实现一定的功能。函数是描述黑箱系统的工具,这在信号与系统,随机过程中尤为突出,同样的,一个矩阵也是一个函数。函数连续性是微积分的基础,如果没有连续性,比如 狄利克雷函数,则无法计算微积分。

2.什么是逼近论?

(1)逼近论是数学的一个分支。研究用较简单的函数,如多项式、三角多项式等来代替(逼近)较复杂的函数。

(2)函数逼近论是函数论的一个重要组成部分,涉及的基本问题是函数的近似表示问题。在数学的理论研究和实际应用中经常遇到下类问题:在选定的一类函数中寻找某个函数g,使它是已知函数ƒ在一定意义下的近似表示,并求出用g近似表示 ƒ而产生的误差。这就是函数逼近问题。

二.极限、微分、积分基本概念

1.极限

(1)极限的定义:

某一个函数中的某一个变量,此变量在变大(或者变小)的永远变化的过程中,逐渐向某一个确定的数值A不断地逼近而“永远不能够重合到A”的过程中,此变量的变化,被人为规定为“永远靠近而不停止”、其有一个“不断地极为靠近A点的趋势”。

(2)极限的概念

极限是微积分的基础。极限的思想是近代数学的一种重要思想,数学分析就是以极限概念为基础、极限理论(包括级数)为主要工具来研究函数的一门学科。利用极限的思想方法给出如下:

  • 函数在 点连续的定义,是当自变量的增量趋于零时,函数值的增量趋于零的极限。
  • 函数在 点导数的定义,是函数值的增量 与自变量的增量 之比 ,当 时的极限。
  • 函数在 点上的定积分的定义,是当分割的细度趋于零时,积分和式的极限。
  • 数项级数的敛散性是用部分和数列 的极限来定义的。
  • 广义积分定积分其中为任意大于的实数时的极限,等等。

2.微分

(1)微分的定义:

在数学中,微分是对函数的局部变化的一种线性描述。微分可以近似地描述当函数自变量的变化量取值作足够小时,函数的值是怎样改变的。比如,x的变化量△x趋于0时,则记作微元dx。

(2)微分的概念:

微分是在导数基础上的一个操作步骤,其基本思想是在无限短的区间段上,用导数所代表的斜率去构成的三角形去近似真正的曲线。三角形用到了直线,而一阶导数就是刻画直线,在此条件下,近似成立;反之,如果是刻画二阶微分,则用直线不可行,还必须考虑到二阶小量。尽管是近似,但是当取值到极限的时候,就是真实值。由于微分从导数而来,所以微分也有各种复合运算求导法则。可微的本质含义就是可以去使用直线近似,所以,可微的条件就是满足近似,与真实值的差值是一个高阶无穷小量。若函数在某一点无法做到可微,便称函数在该点不可微。

在古典的微积分学中,微分被定义为变化量的线性部分,在现代的定义中,微分被定义为将自变量的改变量映射到变化量的线性部分的线性映射。这个映射也被称为切映射。给定的函数在一点的微分如果存在,就一定是唯一的。

(3)微分的公式:

formula

公式描述:公式中f'(x)为f(x)的导数。

深入了解:一元型 高阶型 切线微分 运算法则 微分应用

3.积分

(1)积分的定义:

积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。直观地说,对于一个给定的正实值函数,在一个实数区间上的定积分可以理解为在坐标平面上,由曲线、直线以及轴围成的曲边梯形的面积值(一种确定的实数值)。

(2)积分的概念:

定积分是积分的一种,是函数f(x)在区间[a,b]上的积分和的极限。这里应注意定积分与不定积分之间的关系:若定积分存在,则它是一个具体的数值(曲边梯形的面积),而不定积分是一个函数表达式,它们仅仅在数学上有一个计算关系(牛顿-莱布尼茨公式),其它一点关系都没有!

定积分是变量限定在一定的范围内的积分,有范围的。不定积分是变化范围无限的。一个函数,可以存在不定积分,而不存在定积分,也可以存在定积分,而不存在不定积分。一个连续函数,一定存在定积分和不定积分;若只有有限个间断点,则定积分存在;若有跳跃间断点,则原函数一定不存在,即不定积分一定不存在。

(3)积分公式

积分是微分的逆运算,即知道了函数的导函数,反求原函数。在应用上,积分作用不仅如此,它被大量应用于求和,通俗的说是求曲边三角形的面积,这巧妙的求解方法是积分特殊的性质决定的。主要分为定积分、不定积分以及其他积分。积分的性质主要有线性性、保号性、极大值极小值、绝对连续性、绝对值积分等。

不定积分的公式:

设  是函数f(x)的一个原函数,我们把函数f(x)的所有原函数F(x)+C(C为任意常数)叫做函数f(x)的不定积分,记作,即∫f(x)dx=F(x)+C.其中∫叫做积分号,f(x)叫做被积函数,x叫做积分变量,f(x)dx叫做被积式,C叫做积分常数,求已知函数不定积分的过程叫做对这个函数进行积分。

注:∫f(x)dx+c1=∫f(x)dx+c2, 不能推出c1=c2

定积分的公式:

对于一个给定的实函数f(x),在区间[a,b]上的定积分记为:

若f(x)在[a,b]上恒为正,可以将定积分理解为在Oxy坐标平面上,由曲线(x,f(x))、直线x=a、x=b以及x轴围成的面积值(一种确定的实数值)。

4.利用逼近的思想理解微分

微分是对一个函数的微分,以求函数的微小变化。微分概念是在解决直与曲的矛盾中产生的,在微小局部可以用直线去近似替代曲线,它的直接应用就是函数的线性化。微分具有双重意义:它表示一个微小的量,同时又表示一种与求导密切相关的运算。利用逼近的思想我们可以求出函数最近似的值。

5.利用积分的方式理解概率

在实际当中,经常会碰到复杂函数的定积分,虽然积分存在,但是积不出来,这时我们不得不考虑其数值计算。将定积分的近似值与某个事件的概率中的频率保持一致。概率方法在积分中的应用

三.概率论基础

1.前言

概率论是数理统计的基础,也是很多机器学习模型的支撑,概率论在机器学习中占主要地位,因为概率论为机器学习算法的正确性提供了理论依据。概率论基础知识

2.概率论的基本概念

(1)随机实验(E)

  • 可以在相同的条件下重复地进行。
  • 每次实验的可能结果不止一个,并且事先明确知道实验的所有可能结果。
  • 每次试验将出现哪一个结果无法预知。

例子:抛一枚硬币,观察正面,反面出现的情况。

(2)样本空间 (Ω)

随机试验所有可能的结果组成的集合。

(3)样本点

样本空间的元素,即每个可能的结果。

(4)随机事件

随机试验E的样本空间S的子集称为随机事件。可能发生或可能不发生的事件。

(5)基本事件

样本空间的单个元素,一个可能结果构成的集合。

(6)必然事件(全集)、不可能事件(空集)

事件的关系与事件的运算 (类似于集合运算)。包含关系、和(并)并事件、积(交)事件、差事件、互不相容(互斥)、逆事件(对立事件)。

3.运算规律

(1)交换律

  • A∪B=B∪A
  • A∩B=B∩A

(2)结合律

  • A∪(B∪C)=(A∪B)∪C
  • A∩(B∩C)=(A∩B)∩C

(3)分配律

  • A∪(B∩C)=(A∪B)∩(A∪C)
  • A∩(B∪C)=(A∩B)∪(A∩C) 
  • A∩(B−C)=(A∩B)−(A∩C)

(4)德摩根律(对偶律)

常用结论:

4.古典概率模型

(1)什么是古典概率?

古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。概率依其计算方法不同,可分为古典概率、试验概率和主观概率。

(2)等可能概率

每个可能事件概率相同。 使用排列组合解决,用到分类讨论,和正难则反的思路去做。

5.条件概率

设有两个事件A和B,P(A|B) 为 B条件下A的事件发生的概率。 

  • P(A|B)是:在A情况下(已经确定条件),发生B的概率。 
  • P(AB)是:A发生,B也发生的概率。 
  • P(A|B) = P(AB)/P(B)。 
  • 反推: P(AB) = P(A|B)*P(B) 即乘法公式。 
  • 若A,B事件互相独立,那么乘法公式为 : P(AB) = P(A)*P(B)。

6.全概率公式与贝叶斯公式

(1)全概率公式

举例:已知多个厂次品率(即P(A)),收每个厂的货率(即P(C|A)),算总次品率(即P(C))。(就是多次乘法公式相加) 

P(C) = P(A)*P(C|A) + P(B)*P(C|B)。 

(2)贝叶斯公式

举例:已知总次品率(即P(C)),多个厂次品率(即P(A)),算如果是次品,是A厂的概率(即P(A|C)) 可由全概率公式和乘法公式和条件概率公式推出。学习机器学习和模式识别的人一定都听过贝叶斯公式。

7.常见概率分布

常见的概率分布大体分为两种形式。离散概率分布和连续概率分布。常见的几种概率分布

(1)常见离散概率分布

分为伯努力分布、二项分布、泊松(possion)分布。

(2)常见连续概率分布

分为均匀分布、指数分布、正态分布与卡方分布等等。

四.大数定理和中心极限定理

1.大数定理

俗称"大数定律"。简单的来讲,它告诉我们在随机事件的大量重复出现中,往往呈现几乎必然的规律。在试验不变的条件下,重复试验多次,随机事件的概率近似于它出现的频率。平均结果的稳定性

证明大数定律的策略

切比雪夫大数定律和贝努利大数定律。

2.中心极限定理

研究何种条件下独立随机变量之和的极限分布为正态分布的一系列命题的统称。 当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。

3.两者的区别

(1)大数定律是说,n只要越来越大,我把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。

(2)中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。

(3)综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。

五.协方差(矩阵)和相关系数

1.协方差的定义

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

直观理解:

  • 如果两个变量的协方差为正,说明它们的变化方向相同。
  • 如果两个变量的协方差为负,说明它们的变化方向相反。
  • 如果两个变量的协方差为0,说明两个变量不相关。

2.协方差矩阵

假如有X1,X2,X3,...Xn一组变量,那么协方差矩阵,矩阵中的第i行第j列的元素X[i,j]表示变量Xi和Xj的协方差,容易知道协方差矩阵是对称矩阵,因为X[i,j] = X[j,i]。

协方差可以用来衡量两个变量间的相似性,如果协方差越大(正数)两个变量越相似,如果协方差越小(负数),两个变量越相反,如果协方差为0,说明两个变量不相关。

在机器学习中,往往一个样本数据有很多个特征,基于协方差可以用来筛选特征,也就是剔除掉那些很相似的特征。

3.相关系数

(1)协方差的上界

有X,Y变量,直观的我们可以理解,变量X和自己本身的协方差肯定要大于等于变量X和Y的协方差,因为变量X和自己本身的变化趋势是完全一样的,所以给出下面的式子:var(X)代表X变量的方差

cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(X,X) = E(X^2) - E(X)*E(X)=var(X)=delta1^2    记为T1

cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(Y,Y) = E(Y^2) - E(Y)*E(Y)=var(Y)=delat2^2     记为T2

当X和Y线性相关时取得等号

因为T1,T2左右两边都是正数,我们同时对这两个式子左右两边取根号然后乘起来,可以得到

cov(X,Y) <=delta1*delta2,delta就是方差开方得到的,这就是协方差的上界。

(2)相关系数的定义

相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数实际上也是用来衡量两个变量之间的变化趋势是否相似,只是相关系数的值限定到<1。相关系数绝对值是 小于等于1的。自性关系数为1 。公式如下:

由协方差的上界很容易得到:

(3)相关系数矩阵

和协方差矩阵的定义类似,只是矩阵中元素的值变位相关系数而已。

在机器学习中特征数较多时(比如图像处理),可以用相关系数矩阵来筛选特征。

六.最大似然估计(MLE和最大后验估计(MAP

1.概率和统计是一个东西吗?

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。

概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。MLE和MAP都是统计领域的问题。它们都是用来推测参数的方法。详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

2.最大似然估计(MLE)

似然(likelihood)这个词其实和概率(probability)是差不多的意思。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。

对于这个函数:P(x|θ)

输入有两个:x表示某一个具体的数据;θ表示模型的参数。

  • 如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。
  • 如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

最大似然估计,顾名思义,就是要最大化这个函数。当θ似然函数取得最大值,就认为概率是这个值。有的人不相信这个数值,导致后来要考虑先验概率。 为此,引入了最大后验概率估计。

3.最大后验估计(MAP)

最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。最大后验概率估计则是想求θ使P(x0|θ)最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。

最后的总结:MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。

猜你喜欢

转载自blog.csdn.net/wang_snake/article/details/83106157
今日推荐