符号(Notations)
(1)
f
表示多个函数的组合
⎡⎣⎢⎢⎢⎢⎢f1(x)f2(x)⋮fm(x)⎤⎦⎥⎥⎥⎥⎥
(2)
∇f(x)
表示函数
f(x)
的梯度
(3)粗体符号表示矢量或者矩阵,比如
x
表示一个矢量,
H
表示一个矩阵。
2. 梯度
定义对于任意点(
x∈Rn
)的映射
f:Rn→Rm
f(x)=⎡⎣⎢⎢⎢⎢⎢f1(x)f2(x)⋮fm(x)⎤⎦⎥⎥⎥⎥⎥=[f1(x),f2(x),⋯,fm(x)]T(156)
其中
fi(x)
是一个
Rn→R
的映射。
∂f(x)∂xj
定义为
∂f(x)∂xj=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f1(x)∂xj∂f2(x)∂xj⋮∂fm(x)∂xj⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥=[∂f1(x)∂xj,∂f2(x)∂xj,⋯,∂fm(x)∂xj]T(157)
上面的矢量是曲线
f(x)
的在点
x
处的切矢量,它可以通过固定其余的
xi(i≠j)
仅仅改变
xj
得到。
可导函数
f:Rn→Rm
的导数定义为
Df(x)=[∂f(x)∂x1,∂f(x)∂x2,⋯,∂f(x)∂xn]=⎡⎣⎢⎢⎢⎢⎢∇f1(x)T∇f2(x)T⋮∇fm(x)T⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢∂f1(x)∂x1,⋯,∂f1(x)∂xn⋮∂fm(x)∂x1,⋯,∂fm(x)∂xn⎤⎦⎥⎥⎥⎥∈Rm×n(158)
f:Rn→R
是可导的,则函数在点
x
处的梯度梯度
∇f(x)
可表示为
∇f(x)∇2f(x)=Df(x)T=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f(x)∂x1∂f(x)∂x2⋮∂f(x)∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥∈Rn=⎡⎣⎢⎢⎢⎢⎢∂f2(x)∂x21,⋯,∂f2(x)∂x1∂xn⋮∂f2(x)∂xn∂x1,⋯,∂f2(x)∂x2n⎤⎦⎥⎥⎥⎥⎥∈Rn×n(159)(160)
3. Example:线性高斯模型的最小二乘解
y=Hx+n(731)
其中
x∈Rn
,
H∈Rm×n
是观测矩阵,
n∼N(μ,σ2I)
,
y∈Rm
是观测向量。
解:最小二乘估计器为
x^=argminx∥y−Hx∥(732)
令
J=∥y−Hx∥2
J=(y−Hx)T(y−Hx)=yTy−yTHx−xTHTy+xTHTHx(733)(734)
求梯度
∇J=−2HTy+2HTHx(735)
令梯度等于0,有
x^=(HTH)−1HTy(736)
因此线性高斯模型的最小二乘估计器为
x^=(HTH)−1HTy
。
Remarks: 最小二乘估计器的优点就是不用考虑噪声
n
的分布,当噪声能量很小时,最小二乘估计器的性能会逐渐趋于克拉美-罗下限(CRLB),但,随着噪声的能量增大,最小二乘估计器的性能会逐渐变差。
4. Examp: 求
f(x)
的梯度
求
f(x)
的梯度
f(x)=aTx(332)
其中
f:Rn→R
,
a∈Rn
是常数,
x∈Rn
是自变量矢量。现在求
f(x)
的梯度
解:
f(x)=aTx=a1x1+a2x2+⋯+anxn(333)
∇f(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f(x)∂x1∂f(x)∂x2⋮∂f(x)∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢a1a2⋮an⎤⎦⎥⎥⎥⎥=a∈Rn(334)