从一元微分到多元微分,主要把握这两点差异:一是导数变偏导数,二是叠加。从向量的角度来看,更容易理解:导数(偏导数)表征的是变化率,一元函数导数表示的是一个维度上的变化率,而多元函数导数表示的多个维度变化率,它等于各个分量(维度)上的变化率(偏导数)的叠加。循着这个原则,我们来看一下多元函数的Taylor公式展开。
一、Taylor’s theorem in 1D
先来回顾一下一元函数的Taylor公式(wiki - Taylor’s theorem)
1,Taylor级数
f(a)+f′(a)1!(x−a)+f′′(a)2!(x−a)2+f′′′(a)3!(x−a)3+⋅⋅⋅
也可以记为
∑n=0∞f(n)(a)n!(x−a)n
注:math is fun - Taylor series对Taylor级数也有简单有趣的介绍。
2,Taylor展开
f(x)=f(a)+f′(a)1!(x−a)+f′′(a)2!(x−a)2+f′′′(a)3!(x−a)3+⋅⋅⋅+f(k)(a)k!(x−a)k+o[(x−a)k]
这个就是Peano余项形式的Taylor展开式,它应用的是小o标记法。这个公式的核心思想是:“任意 n 阶可导函数”都可以展开为它在 x=a 处的导数为系数的 n+1 次多项式。
注意两点:一是用多项式近似函数;二是前提条件—— “ n 阶可导”。
二、Taylor’s theorem in 2D
1,定理(Lagrange余项Taylor公式)
设函数 f(x,y) 在点 (a,b) 的某个邻域内具有 n+1 阶连续偏导数,当
(a+Δx,b+Δy)
在此邻域内时,则有
f(a+Δx,b+Δy)=∑k=0n1k![Δx∂∂x+Δy∂∂y]kf(a,b)+1(n+1)![Δx∂∂x+Δy∂∂y]n+1f(a+θΔx,b+θΔy)
这就是二元函数的Taylor公式,其中
0<θ<1
,前一部分是和式,后一部分是Lagrange余项。
2,简单推导
下面我从一元函数的Taylor公式和多元函数链导法来推导二元函数的Taylor公式,其中用到函数构造法。可以参考wiki-Taylor’s theorem
一元函数Taylor公式如下
f(a+Δx)=f(a)+f′(a)Δx+12f′′(a)(Δx)2+⋅⋅⋅+1n!f(n)(a)(Δx)n+o[(Δx)n]
若二元函数 f(x,y) 在 点 (a,b) 处可微,根据二元函数微分的定义有
f(a+Δx,b+Δy)−f(a,b)=∂f(a,b)∂xΔx+∂f(a,b)∂xΔy+o(ρ)
其中,
ρ=(Δx)2+(Δy)2−−−−−−−−−−−−√
表示二维平面上两点间的距离。
将上式移项,可得
f(a+Δx,b+Δy)=f(a,b)+∂f(a,b)∂xΔx+∂f(a,b)∂xΔy+o(ρ)
若二元函数 f(x,y) 在 点 (a,b) 处具有二阶偏导数,可构造一个函数
g(t)=f(a+tΔxρ,b+tΔyρ)
注:不是所有二元函数都可以转换为一元函数,前提条件是“二阶可导”。
则有:
g(0)=f(a,b),g(ρ)=f(a+Δx,b+Δy)
再对g(t)求导,根据复合函数的链导法有
g′(t)=∂f∂xΔxρ+∂f∂yΔyρ
再求二阶导数
g′′(t)=∂2f∂x2(Δxρ)2+∂2f∂x∂yΔxρΔyρ+∂2f∂y∂xΔxρΔyρ+∂2f∂y2(Δyρ)2
则有
g′(0)=∂f(a,b)∂xΔxρ+∂f(a,b)∂yΔyρ=1ρ(∂∂xΔx+∂∂yΔy)f(a,b)
上式后面一个式子是一种形式,只是一种统一的记号
g′′(0)=1ρ2[∂2∂x2(Δx)2+2∂2∂x∂yΔxΔy+∂2∂y2(Δy)2]f(a,b)=1ρ2(∂∂xΔx+∂∂yΔy)2f(a,b)
对g(t)应用一元函数Taylor公式
g(ρ)=g(0)+g′(0)ρ+g′′(0)ρ2+o(ρ2)
即
f(a+Δx,b+Δy)=f(a,b)+(∂∂xΔx+∂∂yΔy)f(a,b)+12(∂∂xΔx+∂∂yΔy)2f(a,b)+o(ρ2)
依次类推,可以得到更高阶的Taylor公式
二元及多元函数的Taylor公式可以写成矩阵形式,这就是“海森矩阵”。下面以二元函数为例,演示一下,其他的可以参考wiki。
n = 0
f(a+Δx,b+Δy)=f(a,b)+o[(ρ)0]
n = 1
f(a+Δx,b+Δy)=f(a,b)+(∂∂xΔx+∂∂yΔy)f(a,b)+o(ρ)=T0+[∂f∂x∂f∂y][ΔxΔy]+o(ρ)
n = 2
f(a+Δx,b+Δy)=f(a,b)+(∂∂xΔx+∂∂yΔy)f(a,b)+12(∂∂xΔx+∂∂yΔy)2f(a,b)+o(ρ2)=T1+⎡⎣⎢⎢⎢⎢∂2f∂x2∂2f∂x∂y∂2f∂x∂y∂2f∂y2⎤⎦⎥⎥⎥⎥[ΔxΔy]+o(ρ)
Jacobi矩阵的定义:
设
y⃗ =⎛⎝⎜⎜⎜⎜y1y2...ym⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜y1(x1,x2,...,xn)y2(x1,x2,...,xn)...ym(x1,x2,...,xn)⎞⎠⎟⎟⎟⎟
是从
Rn
到
Rm
的一个可微映射,则称
⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜∂y1∂x1∂y2∂x1...∂ym∂x1∂y1∂x2∂y2∂x2...∂ym∂x2............∂y1∂xn∂y2∂xn...∂ym∂xn⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟
是
y⃗ =y⃗ (x⃗ )
在
x0→
处的Jacobi矩阵。记作
J(y⃗ (x0→)
或
∂(y1,y2,...,ym)∂(x1,x2,...,xn)
回过头来,再看上面二元函数的二阶Taylor公式中的Hessian矩阵,它实际上是梯度向量
⎛⎝∂f∂x∂f∂y⎞⎠
的Jacobi矩阵。很明显,它是
R2
空间到
R2
空间的映射。