简单理解函数f(x;θ)中分号的含义

注,本文理解可能有不准确甚至有误的地方,仅供参考

我们知道, f ( x ) f(x) f(x)其实就是一个函数,输入变量值 x x x,在经过规则 f f f处理后,最终拿到一个结果。

另一种常见的情况是,比如概率分布 P ( x ) P(x) P(x),其本质上也是一个以 x x x为自变量的函数,在变量 X X X的值为 x x x的情况下,拿到一个结果,这个结果的意义为变量 X X X取到 x x x的概率。

f ( x ; θ ) f(x;\theta) f(x;θ),其实意思就是 f ( x ) f(x) f(x),只不过强调了下函数的参数为 θ \theta θ。这个 θ \theta θ可以是某个确定的常量,也可以是多个确定常量的总体(比如深度神经网络中的全体可训练参数)。例如: θ 2 x + 2 θ + 1 \theta^2x + 2\theta + 1 θ2x+2θ+1 θ = 3 \theta = 3 θ=3,这个函数自变量是 x x x,自然可以写成 f ( x ) f(x) f(x);又因为 x x x的系数(参数)是 θ \theta θ(某个已知或未知的确定值),因此可以表达为 f ( x ; θ ) f(x;\theta) f(x;θ)

根据以上讨论的这些,现在讨论一个比较复杂的情况。比如, N ( x ; 0 , I ) \mathcal{N}\left(x ; \mathbf{0}, \mathrm{I}\right) N(x;0,I)的意思是什么?
我们知道, N ( 0 , I ) \mathcal{N}\left(\mathbf{0}, \mathrm{I}\right) N(0,I)表示标准高斯分布,均值为0,方差为1,其本质上也是一个概率密度函数: f ( x ) = 1 2 π e − x 2 2 f(x)=\frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} f(x)=2π 1e2x2。从这里可以发现,一般的函数我们都是强调自变量本身(比如 x x x),而在概率论里面有时候强调的是函数参数本身(比如高斯分布的均值和方差),而淡化了输入变量(默认为 x x x,省略)。因此 N ( x ; 0 , I ) \mathcal{N}\left(x ; \mathbf{0}, \mathrm{I}\right) N(x;0,I)相比与 N ( 0 , I ) \mathcal{N}\left(\mathbf{0}, \mathrm{I}\right) N(0,I)的区别就在于显式强调了函数的输入为 x x x

最后再放个更复杂的东西: q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathrm{I}\right) q(xtxt1)=N(xt;1βt xt1,βtI)
这个东西分多步看。首先,函数本身是个条件概率分布, q ( x t ∣ x t − 1 ) q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right) q(xtxt1)表示 x t − 1 \mathbf{x}_{t-1} xt1已知的情况下, x t \mathbf{x}_{t} xt的分布( x t \mathbf{x}_{t} xt取各种值的概率)。而后面的这个高斯分布则强调了其输入自变量为 x t \mathbf{x}_{t} xt(因为是 x t \mathbf{x}_{t} xt的概率密度函数,所以自变量当然是 x t \mathbf{x}_{t} xt),而高斯分布的均值和方差则分别为 1 − β t x t − 1 \sqrt{1-\beta_t} \mathbf{x}_{t-1} 1βt xt1 β t I \beta_t \mathrm{I} βtI,与条件分布的条件 x t − 1 \mathbf{x}_{t-1} xt1有关。

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/126763940
今日推荐