条件概率密度
p ( x | θ )
p
(
x
|
θ
)
与似然函数
p ( x ; θ )
p
(
x
;
θ
)
有着千丝万缕的关系,两者所表示的意义不同,但是大多数情况下,两者数值上是相等的(量纲不等)。而在有些时候,两者数值又是不等的。
1. 引入
现代估计理论在许多设计用来提取信息的电子信号处理系统中随处可见,这些系统包括雷达信号处理、声纳、蜂窝网络等。
在所有的这些系统中,我们都将面对根据连续时间波形(观测数据)提取参数的问题,由于使用数字计算机来采样并储存连续时间波形,因此该问题就等价于从离散时间波形或一组数据集中提取参数的问题。从数学概念上来说,我们有
N
N
个数据的数据集
x = { x [ 0 ] , x [ 1 ] , ⋯ , x [ N − 1 ] }
x
=
{
x
[
0
]
,
x
[
1
]
,
⋯
,
x
[
N
−
1
]
}
, 它与未知参数
θ
θ
有关,我们希望根据数据来确定
θ
θ
,定义如下的估计量
θ ^ = g ( x ) (30)
(30)
θ
^
=
g
(
x
)
其中
g
g
表示
R N → R
R
N
→
R
的映射,这就是
参数估计问题 。
2. 问题描述
那么如何从根据观测量来确定估计量呢 ? 在确定好的估计量时,第一步 就是建立数学模型。由于数据固有的随机性,我们用它的概率密度函数(Probability density function,PDF)来描述它,即
p ( x [ 0 ] , x [ 1 ] , ⋯ , x [ N − 1 ] ; θ )
p
(
x
[
0
]
,
x
[
1
]
,
⋯
,
x
[
N
−
1
]
;
θ
)
,或
p ( x ; θ )
p
(
x
;
θ
)
。这是一个以
θ
θ
为未知参数的函数,即我们有一族(cluster)PDF,其中的每一个PDF由于
θ
θ
的不同而不同。因此,我们使用“分号 ”来表示这种关系。注意,这里的自变量是
θ
θ
。此外,
θ
θ
可以是单变量,也可以是多变量。
为了方便理解,我们假设是单变量的情况,并且
θ
θ
与观测量
x
x
之间的关系表示如下
p ( x [ 0 ] ; θ ) = 1 2 π σ 2 − − − − √ exp [ − 1 2 σ 2 ( x [ 0 ] − θ ) 2 ] (2)
(2)
p
(
x
[
0
]
;
θ
)
=
1
2
π
σ
2
exp
[
−
1
2
σ
2
(
x
[
0
]
−
θ
)
2
]
如图所示,由于
θ
θ
的值不同影响
x [ 0 ]
x
[
0
]
的概率。因此,我们可以根据观测到
x [ 0 ]
x
[
0
]
的值能够推断出
θ
θ
的值。比如,若
x [ 0 ]
x
[
0
]
在
θ 1
θ
1
附近,那么
θ = θ 1
θ
=
θ
1
更为合理。
基于这样的PDF的估计是经典估计中的一种。然而,在实际系统中,我们通常会掌握一些未知参数的先验信息(prior information),比如
θ
θ
的范围,又或者
θ
θ
的先验概率密度。若已知
θ
θ
的范围,我们可以对原来的
θ
θ
进行截短,来提高估计精度。若已知
θ
θ
的先验概率密度
p ( θ )
p
(
θ
)
,我们可以通过贝叶斯公式 ,用联合PDF进行描述
p ( x , θ ) = p ( x | θ ) p ( θ ) (3)
(3)
p
(
x
,
θ
)
=
p
(
x
|
θ
)
p
(
θ
)
注意,这里的条件概率密度。而不是似然函数。那么两者有什么区别呢?
p ( x | θ )
p
(
x
|
θ
)
,表示在
θ
θ
发生的条件下
x
x
的概率,即在
θ
θ
发生的情况下,关于
x
x
的概率密度函数(Probability)。
p ( x ; θ )
p
(
x
;
θ
)
,表示给定
x
x
,关于未知参数
θ
θ
的函数,即似然函数(likelihood)。
Remarks : 也就是说,
p ( x | θ )
p
(
x
|
θ
)
是固定
θ
θ
关于
x
x
的函数;
p ( x ; θ )
p
(
x
;
θ
)
表示给定
x
x
,关于
θ
θ
的函数。两者想要表达的意义不是一样的,但有时候,两者的数值是相等的 ,以下给出证明。
3. Example:
对于
x = θ + w
x
=
θ
+
w
,其中
w ∼ p w ( w )
w
∼
p
w
(
w
)
,分别求
p ( x ; θ )
p
(
x
;
θ
)
,
p ( x | θ )
p
(
x
|
θ
)
。
若
θ
θ
与
w
w
相互独立
p ( x | θ ) = p x , θ ( x , θ ) p ( θ ) = p w , θ ( x − θ , θ ) p ( θ ) = p w ( x − θ ) p ( θ ) p ( θ ) = p w ( x − θ ) (4) (5) (6) (7)
(4)
p
(
x
|
θ
)
=
p
x
,
θ
(
x
,
θ
)
p
(
θ
)
(5)
=
p
w
,
θ
(
x
−
θ
,
θ
)
p
(
θ
)
(6)
=
p
w
(
x
−
θ
)
p
(
θ
)
p
(
θ
)
(7)
=
p
w
(
x
−
θ
)
显然,此时
p ( x ; θ ) = p ( x | θ )
p
(
x
;
θ
)
=
p
(
x
|
θ
)
。
若
θ
θ
与
w
w
不满足相互独立的关系
p ( x | θ ) = p x , θ ( x , θ ) p ( θ ) = p w , θ ( x − θ , θ ) p ( θ ) = p w | θ ( x − θ ) p ( θ ) p ( θ ) = p w | θ ( x − θ ) (8) (9) (10) (11)
(8)
p
(
x
|
θ
)
=
p
x
,
θ
(
x
,
θ
)
p
(
θ
)
(9)
=
p
w
,
θ
(
x
−
θ
,
θ
)
p
(
θ
)
(10)
=
p
w
|
θ
(
x
−
θ
)
p
(
θ
)
p
(
θ
)
(11)
=
p
w
|
θ
(
x
−
θ
)
很显然 ,由于
θ
θ
与
w
w
不满足相互独立关系,因此
p w | θ ( x − θ ) ≠ p w ( x − θ )
p
w
|
θ
(
x
−
θ
)
≠
p
w
(
x
−
θ
)
,即
p ( x ; θ ) ≠ p ( x | θ )
p
(
x
;
θ
)
≠
p
(
x
|
θ
)
。
Remarks : 从上面的例子可以看出,似然函数与概率密度函数并不一定相等,但在满足相互独立的条件下的时候,数值上的相等的。注意两者的 “量纲 ” 是不同的。
4. Application: maximum likelihood estimator (MLE)
系统模型(system model) 对于线性高斯模型(Linear Gaussian model, LGM)
y = H x + w (12)
(12)
y
=
H
x
+
w
其中
x ∈ R n
x
∈
R
n
是未知信号,其先验概率
p ( x )
p
(
x
)
已知,
w
w
是高斯噪声项,并且有
w ∼ N ( 0 , Λ )
w
∼
N
(
0
,
Λ
)
,
H ∈ R m × n
H
∈
R
m
×
n
是观测矩阵,
y ∈ R m
y
∈
R
m
是观测向量。
最大似然估计(maximum likelihood estimator, MLE) 由于系统,满足独立假设,因此对于该系统,概率密度与似然函数在数值上是相等的,即
p ( y ; x ) = p ( y | x )
p
(
y
;
x
)
=
p
(
y
|
x
)
,该系统的似然函数表示为
p ( y ; x ) = 1 2 π det ( Λ ) − − − − − − − − √ exp [ − 1 2 ( y − H x ) T Λ − 1 ( y − H x ) ] (13)
(13)
p
(
y
;
x
)
=
1
2
π
det
(
Λ
)
exp
[
−
1
2
(
y
−
H
x
)
T
Λ
−
1
(
y
−
H
x
)
]
进一步地,该系统的最大似然估计表示为
x ^ ml = arg max x p ( y ; x ) (14)
(14)
x
^
ml
=
arg
max
x
p
(
y
;
x
)
若
x
x
是离散随机变量,且有取值集合
S
S
,即
x ∈ S
x
∈
S
,并且集合长度
| S | = L
|
S
|
=
L
,那么最大似然估计的计算复杂度为
O ( L n )
O
(
L
n
)
,显然,当系统规模很大时,最大似然估计的计算复杂度是非常巨大的。 若
x
x
是连续随机变量,我们可以通过导数工具,寻找其最值点
∂ ln p ( y ; x ) ∂ x = ( y − H x ) T Λ − 1 H (15)
(15)
∂
ln
p
(
y
;
x
)
∂
x
=
(
y
−
H
x
)
T
Λ
−
1
H
这里利用的是,对函数取对数不改变函数单调性 。 令偏导为0,得到
x ^ ml = ( H T Λ − 1 H ) − 1 H T Λ − 1 y (16)
(16)
x
^
ml
=
(
H
T
Λ
−
1
H
)
−
1
H
T
Λ
−
1
y
Remarks: 通过对似然函数求偏导所得到的估计器为
p ( y ; x )
p
(
y
;
x
)
的驻点,不一定就是似然函数的最值点。前提条件是
p ( y ; x )
p
(
y
;
x
)
是凸函数(Convex function)。