卡尔曼家族从零解剖-(01)预备知识点

讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解的 卡尔曼家族从零解剖 链接 :卡尔曼家族从零解剖-(00)目录最新无死角讲解:https://blog.csdn.net/weixin_43013761/article/details/133846882
 
文末正下方中心提供了本人 联系方式, 点击本人照片即可显示 W X → 官方认证 {\color{blue}{文末正下方中心}提供了本人 \color{red} 联系方式,\color{blue}点击本人照片即可显示WX→官方认证} 文末正下方中心提供了本人联系方式,点击本人照片即可显示WX官方认证

郑重声明:该系列博客为本人 ( W e n h a i Z h u ) 独家私有 , 禁止转载与抄袭 , 首次举报有谢 ! \color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢! 郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢!
 

一、前言

在后续的过程中,不可避免涉及到各种零碎的知识点,比如概率论中的一些公式记录或推导,如每次都花大量的篇幅来进行讲解,这样博客就太多了,知识点又会比较凌乱,所以该篇博客,主要用于记录一些重要公式的结论,每个公式都会有对应的编号,不过需要注意 编号未必有序 \color{red}编号未必有序 编号未必有序。有的或许会有推导过程,有的可能只有参考链接,当然或许有部分只有公式,那么说明其应该比较简单,随便百度或者谷歌一下都能找到对应的推导过程。

1.概率相关

( 1 ) 随机变量 : \color{blue}(1)随机变量: (1)随机变量: 大写 X X X , Y Y Y Z Z Z … 表示随机变量(事件);小写的 x x x , y y y z z z 表示随机变量的具体取值,通常是一个具体的数值;如 X X X 表示明天是否下雨的随机事件, X = 1 X=1 X=1 表示下雨, X = 0 X=0 X=0 则不下雨。

( 2 ) 离散概率 : \color{blue}(2)离散概率: (2)离散概率: 如果用 P P P 表示离散概率概率, 这里用 Y Y Y 表示转骰子随机事件,那么 P ( Y = 1 ) P(Y=1) P(Y=1) 则表示骰子为 1 的概率,如 P ( Y = 1 ) = 1 6 P(Y=1)=\frac{1}{6} P(Y=1)=61,则骰子为 1 的概率是 1 6 \frac{1}{6} 61,当然也可以使用数学公式表示。如 P ( Y = y ) = e − λ λ k k ! P(Y=y)=e^{-\lambda} \frac{\lambda^{k}}{k !} P(Y=y)=eλk!λk

( 3 ) 连续概率 : \color{blue}(3)连续概率: (3)连续概率: 离散概率可以理解为直方图分布,那么连续概率就是一段区间所围成面积占整个区域的比值,如 P ( 1 < Y < 5 ) = 3 6 P(1<Y<5)=\frac{3}{6} P(1<Y<5)=63 可以表示投掷一次骰子,出现 2 或 3 或 4 的概率值。既然是面积,那么可以使用积分的方式。又比如: P ( 2 < + ∞ ) = ∫ 2 − ∞ 1 2 π e − x 2 2 d x P(2<+∞)=\int_{2}^{-\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^{2}}{2}} \mathrm dx P(2<+)=22π 1e2x2dx

( 4 ) 联合概率 : \color{blue}(4)联合概率: (4)联合概率: 两个随机事件可以联合表示,如 P ( X = x , Y = y ) P(X=x, Y=y) P(X=x,Y=y),表示事件 X X X 出现 x x x 的同时 事件 Y Y Y 出现 y y y 的概率。比如投掷两枚骰子,那么 P ( X = 1 , Y = 5 ) P(X=1, Y=5) P(X=1,Y=5) 则表示第一枚骰子结果为1 的同时 第二枚筛子结果为 5 的概率。

( 5 ) 条件概率 : \color{blue}(5)条件概率: (5)条件概率: 首先从命名上理解,也就是在什么事件发生的前提(条件)下,另外一个事件发生的概率。这里举例 P ( Y = 1 ∣ X = 5 ) P(Y=1|X=5) P(Y=1∣X=5) 表示第一枚骰子结果为 5 的前提下,第二枚骰子结果为 1 的概率。

( 5 ) 概率密度 ( P D F ) : \color{blue}(5)概率密度(PDF): (5)概率密度(PDF): 这里说一下概率密度(probability density function),上面提到的 【(3)连续概率】表达式我们写成一个通用如下: P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a≤X≤b)=\int_{a}^{b}f(x)\mathrm dx P(aXb)=abf(x)dx这里称 X X X 为连续型随机变量, f ( x ) f(x) f(x) X X X 的概率密度函数,简称概率密度或密度. f ( x ) Δ x f(x) \Delta{x} f(x)Δx 表示 Δ x \Delta{x} Δx 这个区间段的概率。概率密度可以看作概率关于 x x x 的导数,这里需要注意 x x x f ( x ) f(x) f(x) 都是连续的。

( 6 ) 边缘概率 : \color{blue}(6)边缘概率: (6)边缘概率: 对于一维的边缘概率(Marginal Probability),其就是某个事件发生的概率,而与其它事件无关,如投骰子示例中的 P ( X = 1 ) P(X=1) P(X=1) P ( X = 2 ) P(X=2) P(X=2)。对于多维度的边缘概率会复杂一些,且离散与连续边缘概率也存在不同之处,且还涉及到联合概率与全概率公式等,所以放后面单独细解。另外一维边缘概率虽然可以通过 f ( x ) Δ x f(x) \Delta{x} f(x)Δx 表示,但没有实际意义,通常不予考虑。

( 7 ) 先验后验 : \color{blue}(7)先验后验: (7)先验后验: 为兼容大部分书籍或博主,使用 a ˇ \check {a} aˇ a − a^- a 表示先验证, a ^ \hat {a} a^ a + a^+ a+ 表示后验,如 x ˇ \check {x} xˇ x − x^- x 表示先验状态, f X + ( x ) f^+_X(x) fX+(x) f ^ X ( x ) \hat f_X(x) f^X(x) 表示后验概率密度函数,他们之间并没有区别,只是书写方式不一样而已。

2.矩阵相关

( 1 ) 变量 : \color{blue}(1)变量: (1)变量: 后续推导过程中,小写 a a a b b b c c c 表示标量数值,加粗之后的小写字母 a \mathbf a a b \mathbf b b c \mathbf c c 等表示向量,然后大写的 A \mathbf A A 且加加粗表示矩阵。

( 2 ) 矩阵 : \color{blue}(2)矩阵: (2)矩阵: 另外,关于矩阵还需要做一些特别的说明,如 A a b \mathbf A_a^b Aab,其表示该为一个变换矩阵,其意义表示 a 系到 b 系的坐标变换。

二、条件概率(多维)

( 1 ) 条件概率 ( 离散 ) : \color{blue}(1)条件概率(离散): (1)条件概率(离散): 若随机事件 X X X, Y Y Y 为离散事件,则可以推导出如下公式:
P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) (01) \color{Green} \tag{01} P(X=x \mid Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)} P(X=xY=y)=P(Y=y)P(X=x,Y=y)(01)这里还是挺好理解的,直接变换一下 P ( X = x ∣ Y = y ) P ( Y = y ) = P ( X = x , Y = y ) P(X=x \mid Y=y){P(Y=y)}=P(X=x, Y=y) P(X=xY=y)P(Y=y)=P(X=x,Y=y)。可以作图理解,两个事件 X , Y X, Y X,Y分别使用椭圆表示,那么他们的交集就是 P ( X = x , Y = y ) P ( Y = y ) {P(X=x, Y=y)}{P(Y=y)} P(X=x,Y=y)P(Y=y)

( 2 ) 条件概率 ( 连续 ) : \color{blue}(2)条件概率(连续): (2)条件概率(连续): 如果是连续的,则不能类似离散的方式进行表示,前面提到一维连续边缘概率,如上式中 P ( Y = y ) P(Y=y) P(Y=y) 是没有意义的,所以我们应该通过概率密度的方式进行表示,这里我们用 f X ( x ) f_X(x) fX(x) f Y ( y ) f_Y(y) fY(y) 表示连续随机变量 X , Y X, Y X,Y 的概率密度函数。那么 f Y X ( y ∣ x ) f_{YX}(y|x) fYX(yx) 则表示条件概率 P ( Y ∣ X ) P(Y|X) P(YX) 的密度函数。有推导公式如下:
f Y X ( y ∣ x ) = f ( X = x , Y = y ) f X ( x ) (02) \color{Green} \tag{02} f_{YX}(y|x)=\frac{f(X=x, Y=y)}{f_X(x)} fYX(yx)=fX(x)f(X=x,Y=y)(02) 那么这个概率密度有什么作用呢?与前面一维的一样,可以通过积分求得条件概率 P ( Y ∣ X ) P(Y|X) P(YX)。后续进行分析。

三、全概率公式-边缘概率-多维

( 1 ) 全概率 ( 离散 ) : \color{blue}(1)全概率(离散): (1)全概率(离散): 假设现在有随机事件(变量) X , Y X, Y X,Y,已知道 X X X 的边缘概率 P ( X i ) P(X_i) P(Xi);以及条件概率 P ( Y ∣ X i ) P(Y|X_i) P(YXi),其可以表示所有 X X X 情况 [ X 0 , X 1 , . . . . X i ] [X_0,X_1,....X_i] [X0,X1,....Xi] 发生的前提下,其 Y Y Y 事件也发生的概率。这里我们只考虑二维,也就是事件只有 X , Y X, Y X,Y 的组合,下面把所有 P ( Y ∣ X i ) P(Y|X_i) P(YXi) 情况下发生 P ( Y ) P(Y) P(Y) 都累加起来,则会出现如下公式: P ( Y ) = ∑ i P ( X i ) P ( Y ∣ X i ) (03) \color{Green} \tag{03} P(Y)=\sum_iP(X_i)P(Y|X_i) P(Y)=iP(Xi)P(YXi)(03)上式,还是比较好理解的,比如盒子中有五个颜色的求(红黄蓝绿青),现在连续取两次球,分别记为事件 X , Y X, Y X,Y,用 (红|黄) 表示第一次取出黄求,第二次取出红求,以此类推,如果知道 P ( 红 ∣ 红 ) P(红|红) P(), P ( 红 ∣ 黄 ) P(红|黄) P(), P ( 红 ∣ 蓝 ) P(红|蓝) P(), P ( 红 ∣ 绿 ) P(红|绿) P(绿), P ( 红 ∣ 青 ) P(红|青) P() 的概率,同时这里的 P ( X i ) = 1 5 P(X_i)=\frac{1}{5} P(Xi)=51,那么根据上式我们就可以求解出,取出一次球,其为红色的概率,及边缘概率 P ( Y ) = 红 P(Y)=红 P(Y)= 的边缘概率。当然,还可以类似的求得
P ( Y ) = 黄 P(Y)=黄 P(Y)= P ( Y ) = 蓝 P(Y)=蓝 P(Y)= 等的边缘概率。原理就是把所有 X i X_i Xi 情况下 同时出现 Y j Y_j Yj 的概率都累加起来,进而求得边缘概率 Y j Y_j Yj(上述公式推导为简洁,省略了 Y Y Y的下标 j j j)。

( 2 ) 全概率 ( 连续 ) : \color{blue}(2)全概率(连续): (2)全概率(连续): 连续的情况,则要复杂很多,不像离散直接累加即可。相对复杂一些,其主要还是因为离散情况下 P ( Y j ) P(Y_j) P(Yj) 是没有意义的。但是,前面提到密度函数是有意义与作用。为这里使用牛顿莱布尼兹对前面的概率密度 P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a≤X≤b)=\int_{a}^{b}f(x)\mathrm dx P(aXb)=abf(x)dx 改写一下,可以得到 F X ( − ∞ ≤ x ) = ∫ − ∞ x f X ( x ) d t F_X(-\infty≤x)=\int_{-\infty}^{x}f_X(x)dt FX(x)=xfX(x)dt。设密度函数 f Y X ( y , x ) f_{YX}(y,x) fYX(y,x) f X ( x ) f_X(x) fX(x) f Y ( y ) f_Y(y) fY(y) ,也就是说 ( F X ( x ) ) ′ = f X ( x ) (F_X(x))^{'}=f_{X}(x) (FX(x))=fX(x) ( F Y ( y ) ) ′ = f Y ( y ) (F_Y(y))^{'}=f_{Y}(y) (FY(y))=fY(y)。那么进一步可以推导出如下公式:
F X ( x ) = F X ( − ∞ ≤ x ) = ∫ − ∞ x [ ∫ − ∞ ∞ f ( x , y ) d y ] d x (04) \color{Green} \tag{04} F_X(x)=F_X(-\infty≤x)=\int_{-\infty}^{x}[\int_{-\infty}^{\infty}f(x,y)\mathrm dy]\mathrm dx FX(x)=FX(x)=x[f(x,y)dy]dx(04)首先 f ( x , y ) f(x,y) f(x,y) 时关于 x , y x,y x,y 的密度函数,对齐进行变量 y y y的积分 ∫ − ∞ ∞ f ( x , y ) d y = f ( x ) \int_{-\infty}^{\infty}f(x,y)\mathrm dy=f(x) f(x,y)dy=f(x),这里从无穷到正无穷的积分,也就是把 y y y 的所有可能性都考虑进去了。关于 y y y 的积分,积分结果 y y y 当然就没有了,如下: f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y (05) \color{Green} \tag{05} f_X(x)=\int_{-\infty}^{\infty}f(x,y)\mathrm dy fX(x)=f(x,y)dy(05)也就是只剩下关于 x x x 的密度函数 f ( x ) f(x) f(x),在对其进行二次积分,就得到 F X ( x ) = F X ( − ∞ ≤ x ) F_X(x)=F_X(-\infty≤x) FX(x)=FX(x)。当然也可以把关于 x , y x,y x,y 的积分互换一下,则可以得到: F Y ( y ) = F y ( − ∞ ≤ y ) = ∫ − ∞ y [ ∫ − ∞ ∞ f ( y , x ) d x ] d y (06) \color{Green} \tag{06} F_Y(y)=F_y(-\infty≤y)=\int_{-\infty}^{y}[\int_{-\infty}^{\infty}f(y,x)\mathrm dx]\mathrm dy FY(y)=Fy(y)=y[f(y,x)dx]dy(06) 注意 : \color{red}注意: 注意: 根据计算出来的 F X ( x ) = F X ( − ∞ ≤ x ) F_X(x)=F_X(-\infty≤x) FX(x)=FX(x) F Y ( y ) = F y ( − ∞ ≤ y ) F_Y(y)=F_y(-\infty≤y) FY(y)=Fy(y) 我们就可以计算任意的边缘概率了,如 F X i j ( x ∈ [ x i , x j ] ) = F X ( X i ) − F X ( X j ) F_{X_{ij}}(x\in[x_i,x_j])=F_X(X_i)-F_X(X_j) FXij(x[xi,xj])=FX(Xi)FX(Xj)

四、贝叶斯公式

1.离散推导

根据【条件概率(离散)】(01) 式 与 【全概率(离散)】(03)式子,可以推导出:
P ( X i ∣ Y ) = P ( Y ∣ X i ) P ( X i ) P ( Y ) = P ( Y ∣ X i ) P ( X i ) ∑ i = 1 n P ( Y ∣ X i ) P ( X i ) = c a u s a l k n o w l e d g e − p r i o r k n o w l e d g e p r i o r k n o w l e d g e (07) \color{Green} \tag{07} P\left(X_{i} \mid Y\right)=\frac{P\left(Y \mid X_{i}\right) P\left(X_{i}\right)}{P(Y)}=\frac{P\left(Y \mid X_{i}\right) P\left(X_{i}\right)}{\sum_{i=1}^{n} P\left(Y \mid X_{i}\right) P\left(X_{i}\right)}=\frac{causal knowledge-prior knowledge}{prior knowledge} P(XiY)=P(Y)P(YXi)P(Xi)=i=1nP(YXi)P(Xi)P(YXi)P(Xi)=priorknowledgecausalknowledgepriorknowledge(07)这里表述的意思其实很好理解,就是果 Y Y Y 发生的前提下,是由因 X i X_i Xi 引起的概率是多少,也就是【果→因】的概率推断(破案就是一个这样的过程)。 P ( Y ) P(Y) P(Y) 是一个边缘概率比较好理解,就是出现这种果的概率,如果在二维中,根据全概率公式,也就是(03) 式的 P ( Y ) = ∑ i P ( X i ) P ( Y ∣ X i ) P(Y)=\sum_iP(X_i)P(Y|X_i) P(Y)=iP(Xi)P(YXi)。另外 P ( Y ∣ X i ) P ( X i ) P\left(Y \mid X_{i}\right) P\left(X_{i}\right) P(YXi)P(Xi),意思比较简单,就是基于 Y Y Y 事件发生的基础上,同时 X i X_i Xi 事件也发生。 P ( X i ) P( X_{i}) P(Xi) 称为先验概率, P ( Y ∣ X i ) P(Y \mid X_{i}) P(YXi) 称为似然概率。先验概率理解为初始值,似然概率表示对先验的修正,然后获得 P ( X i ∣ Y ) P(X_i|Y) P(XiY) 称为后验概率密度。另外通常我们会把分母记录成
η = 1 ∑ i = 1 n P ( Y ∣ X i ) P ( X i ) (08) \color{Green} \tag{08} \eta=\frac{1}{\sum_{i=1}^{n} P\left(Y \mid X_{i}\right) P\left(X_{i}\right)} η=i=1nP(YXi)P(Xi)1(08)那么(07)式也会被写成 P ( X i ∣ Y ) = P ( Y ∣ X i ) P ( X i ) P ( Y ) = η P ( Y ∣ X i ) P ( X i ) (09) \color{Green} \tag{09} P\left(X_{i} \mid Y\right)=\frac{P\left(Y \mid X_{i}\right) P\left(X_{i}\right)}{P(Y)}=\eta P\left(Y \mid X_{i}\right) P\left(X_{i}\right) P(XiY)=P(Y)P(YXi)P(Xi)=ηP(YXi)P(Xi)(09)

2.连续推导

又回到了连续的推导,不用多少,相对来说当然会复杂一些,推导过程中,使用到积分转无穷级数(离散)处理,也就是连续转离散化,这里先给出推导结果,再来讨论推导过程: f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ + ∞ f Y ∣ X ( y ∣ x ) f X ( x ) d x (10) \color{Green} \tag{10} f_{X \mid Y}(x \mid y)=\frac{f_{X, Y}(x, y)}{f_{Y}(y)}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{\int_{-\infty}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) \mathrm{d} x} fXY(xy)=fY(y)fX,Y(x,y)=+fYX(yx)fX(x)dxfYX(yx)fX(x)(10) 根据前面知识,可以知道 F X ∣ Y ( x ∣ y ) = P ( X ≤ x ∣ Y = y ) = ∫ − ∞ x f X ∣ Y ( x ∣ y ) d x = ∑ u = − ∞ x P ( X = u ∣ Y = y ) (11) \color{Green} \tag{11} F_{X \mid Y}(x \mid y)=P(X \leq x \mid Y=y)=\int_{-\infty}^{x} f_{X \mid Y}(x \mid y) d x=\sum_{u=-\infty}^{x} P(X=u \mid Y=y) FXY(xy)=P(XxY=y)=xfXY(xy)dx=u=xP(X=uY=y)(11) 上面是比较核心的一步,其把 f X ∣ Y ( x ∣ y ) d x f_{X \mid Y}(x \mid y) d x fXY(xy)dx 作为一个无穷小量来对待,根据【全概率(连续)】(05) 推导,把其作为一个小区间面积来对待,也就是 Y = y Y=y Y=y 条件下,对 X = u X=u X=u 进行 ( − ∞ , x ) (-\infty,x) (,x) 的累加。既让离散化了,那么当然就可以套用离散的公式(07)了,也就是: ∑ u = − ∞ x P ( X = u ∣ Y = y ) = ∑ u = − ∞ x P ( Y = y ∣ X = u ) P ( X = u ) P ( Y = y ) (12) \color{Green} \tag{12} \sum_{u=-\infty}^{x} P(X=u \mid Y=y)=\sum_{u=-\infty}^{x} \frac{P(Y=y \mid X=u) P(X=u)}{P(Y=y)} u=xP(X=uY=y)=u=xP(Y=y)P(Y=yX=u)P(X=u)(12) 对上式整改一下,使用无穷小极限形式表示,那么将得到:
= lim ⁡ ε → 0 ∑ u = − ∞ x P ( y ≤ Y ≤ y + ε ∣ X = u ) P ( u ≤ X ≤ u + ε ) P ( y ≤ Y ≤ y + ε ) (13) \color{Green} \tag{13} =\lim _{\varepsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{P(y \leq Y \leq y+\varepsilon \mid X=u) P(u \leq X \leq u+\varepsilon)}{P(y \leq Y \leq y+\varepsilon)} =ε0limu=xP(yYy+ε)P(yYy+εX=u)P(uXu+ε)(13) 为什么(10)式可以转换为(11)式呢? 是因为在使用离散代替的时候, X , Y X,Y X,Y 都是有个范围的,现在把这个范围认为是趋向无穷的。接着再使用 应用Lagrange中值定理有: = lim ⁡ ε → 0 ∑ u = − ∞ x f Y ∣ X ( ξ 1 ∣ u ) ε ⋅ f X ( ξ 2 ) ε f Y ( ξ 3 ) ε , (14) \color{Green} \tag{14} = \lim _{\varepsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{f_{Y \mid X}\left(\xi_{1} \mid u\right) \varepsilon \cdot f_{X}\left(\xi_{2}\right) \varepsilon}{f_{Y}\left(\xi_{3}\right) \varepsilon} , =ε0limu=xfY(ξ3)εfYX(ξ1u)εfX(ξ2)ε(14)上面的主要依据,就是前面提到的,概率关于随机变量的倒数,就是概率密度函数。上式中 ξ 1 ∈ ( y , y + ε ) \xi_{1} \in(y, y+\varepsilon) ξ1(y,y+ε),、 ξ 2 ∈ ( u , u + ε ) \xi_{2} \in(u, u+\varepsilon) ξ2(u,u+ε) ξ 3 ∈ ( y , y + ε ) \xi_{3} \in(y, y+\varepsilon) ξ3(y,y+ε)。因为 ε \varepsilon ε 趋向于无穷小, ξ 1 = u \xi_{1}=u ξ1=u ξ 2 = u \xi_{2}=u ξ2=u ξ 3 = y \xi_{3}=y ξ3=y;同时分子分子分母约掉一个 ε \varepsilon ε,继续化简可得,:
= lim ⁡ ε → 0 ∑ u = − ∞ x f Y ∣ X ( y ∣ u ) f X ( u ) f Y ( y ) ε = ∫ − ∞ x f Y ∣ X ( y ∣ u ) f X ( u ) f Y ( y ) d u (15) \color{Green} \tag{15} =\lim _{\varepsilon \rightarrow 0} \sum_{u=-\infty}^{x} \frac{f_{Y \mid X}(y \mid u) f_{X}(u)}{f_{Y}(y)} \varepsilon=\int_{-\infty}^{x} \frac{f_{Y \mid X}(y \mid u) f_{X}(u)}{f_{Y}(y)} \mathrm d u =ε0limu=xfY(y)fYX(yu)fX(u)ε=xfY(y)fYX(yu)fX(u)du(15) 因为 ε \varepsilon ε 是无穷小量, d u \mathrm du du 也是无穷小量,所以上面的符号变了一下。同时在把 u u u 换成 x x x 表示,那么可以得到,那么现在总结一下,目前已经推导出: F X ∣ Y ( x ∣ y ) = P ( X ≤ x ∣ Y = y ) = ∫ − ∞ x f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) d x (16) \color{red} \tag{16} F_{X \mid Y}(x \mid y)=P(X \leq x \mid Y=y)=\int_{-\infty}^{x} \frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{f_{Y}(y)} \mathrm d x FXY(xy)=P(XxY=y)=xfY(y)fYX(yx)fX(x)dx(16)根据连续随机概率密度函数的性质可以得到: F X ∣ Y ( x ∣ y ) = P ( X ≤ x ∣ Y = y ) = ∫ − ∞ x f X ∣ Y ( x ∣ y ) d x (17) \color{red} \tag{17} F_{X \mid Y}(x \mid y)=P(X \leq x \mid Y=y)=\int_{-\infty}^{x} f_{X \mid Y}(x \mid y) \mathrm d x FXY(xy)=P(XxY=y)=xfXY(xy)dx(17)那么根据(14)(15)式可以得到连续随机变量的贝叶斯公式: f X ∣ Y ( x ∣ y ) = f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) = η f Y ∣ X ( y ∣ x ) f X ( x ) (18) \color{Green} \tag{18} f_{X \mid Y}(x \mid y)=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{f_{Y}(y)}=\eta f_{Y \mid X}(y \mid x) f_{X}(x) fXY(xy)=fY(y)fYX(yx)fX(x)=ηfYX(yx)fX(x)(18)此处, f Y ( y ) f_{Y}(y) fY(y) 满足 (由条件概率密度的定义): f Y ( y ) = ∫ − ∞ + ∞ f ( y , x ) d x = ∫ − ∞ + ∞ f Y ∣ X ( y ∣ x ) f X ( x ) d x (20) \color{Green} \tag{20} f_{Y}(y)=\int_{\mathbb{-\infty}}^{+\infty} f(y, x) \mathrm d x=\int_{\mathbb{-\infty}}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) d x fY(y)=+f(y,x)dx=+fYX(yx)fX(x)dx(20)所以 η = 1 ∫ − ∞ + ∞ f Y ∣ X ( y ∣ x ) f X ( x ) d x (21) \color{Green} \tag{21} \eta=\frac{1}{\int_{\mathbb{-\infty}}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) d x} η=+fYX(yx)fX(x)dx1(21)与离散的叫法差不多, f X ( x ) f_X(x) fX(x) 称为先验概率密度, f Y ∣ X ( y ∣ x ) f_{Y|X}(y|x) fYX(yx)称为似然概率密度, f X ∣ Y ( x ∣ y ) f_{X|Y}(x|y) fXY(xy)称为后验概率密度函数。似然概率密度函数可以对先验概率密度函数进行修正,获得后验概率密度函数。

四、公式记录

1.正太分布密度函数:

f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2             X ∼ N ( μ , σ 2 ) (22) \color{Green} \tag{22} f(x)=\frac{1}{ \sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}~~~~~~~~~~~X \sim N\left(\mu, \sigma^{2}\right) f(x)=σ2π 1e2σ2(xμ)2           XN(μ,σ2)(22)其上的 μ \mu μ 表示均值, σ \sigma σ 表示标准差。

2.正太分布贝叶斯公式:

先验概率密度函数:  f X ( x ) = X ∼ N ( μ 1 , σ 1 2 ) = 1 σ 1 2 π e − ( x − μ 1 ) 2 2 σ 1 2 (23) \color{Green} \tag{23} 先验概率密度函数:~f_X(x)=X \sim N\left(\mu_1, \sigma_1^{2}\right)=\frac{1}{ \sigma_1 \sqrt{2 \pi}} e^{-\frac{(x-\mu_1)^{2}}{2 \sigma_1^{2}}} 先验概率密度函数: fX(x)=XN(μ1,σ12)=σ12π 1e2σ12(xμ1)2(23) 似然概率密度函数:  f Y ∣ X ( y ∣ x ) = X ∼ N ( μ 2 , σ 2 2 ) = 1 σ 2 2 π e − ( x − μ 2 ) 2 2 σ 2 2 (24) \color{Green} \tag{24} 似然概率密度函数:~f_{Y|X}(y|x)=X \sim N\left(\mu_2, \sigma_2^{2}\right)=\frac{1}{ \sigma_2\sqrt{2 \pi}} e^{-\frac{(x-\mu_2)^{2}}{2 \sigma_2^{2}}} 似然概率密度函数: fYX(yx)=XN(μ2,σ22)=σ22π 1e2σ22(xμ2)2(24) f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ + ∞ f Y ∣ X ( y ∣ x ) f X ( x ) d x = η f Y ∣ X ( y ∣ x ) f X ( x ) (25) \color{Green} \tag{25} f_{X \mid Y}(x \mid y)=\frac{f_{X, Y}(x, y)}{f_{Y}(y)}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{\int_{-\infty}^{+\infty} f_{Y \mid X}(y \mid x) f_{X}(x) \mathrm{d} x}=\eta f_{Y \mid X}(y \mid x) f_{X}(x) fXY(xy)=fY(y)fX,Y(x,y)=+fYX(yx)fX(x)dxfYX(yx)fX(x)=ηfYX(yx)fX(x)(25) 后验概率密度函数 :   f X ∣ Y ( x ∣ y ) = N ( σ 1 2 σ 1 2 + σ 2 2 μ 2 + σ 2 2 σ 1 2 + σ 2 2 μ 1 , σ 1 2 σ 2 2 σ 1 2 + σ 2 2 ) (26) \color{Green} \tag{26} 后验概率密度函数:~f_{X|Y}(x|y)=N\left(\frac{\sigma_{1}^{2}}{\sigma_{1}^2+\sigma_{2}^{2}} \mu_{2}+\frac{\sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}} \mu_{1} , \frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}}\right) 后验概率密度函数: fXY(xy)=N(σ12+σ22σ12μ2+σ12+σ22σ22μ1σ12+σ22σ12σ22)(26)从该公式,可以明显知道,经过似然概率密度函数的矫正之后,是能够降低先验概率密度函数的标准差(误差)的。因为 σ 1 2 σ 2 2 σ 1 2 + σ 2 2 \frac{\sigma_{1}^{2} \sigma_{2}^{2}}{\sigma_{1}^{2}+\sigma_{2}^{2}} σ12+σ22σ12σ22 必然是小于 σ 1 2 \sigma_{1}^{2} σ12 σ 2 2 \sigma_{2}^{2} σ22

 
 

猜你喜欢

转载自blog.csdn.net/weixin_43013761/article/details/133847178