用Python学《微积分B》（多元函数Taylor公式）

从一元微分到多元微分，主要把握这两点差异：一是导数变偏导数，二是叠加。从向量的角度来看，更容易理解：导数（偏导数）表征的是变化率，一元函数导数表示的是一个维度上的变化率，而多元函数导数表示的多个维度变化率，它等于各个分量（维度）上的变化率（偏导数）的叠加。循着这个原则，我们来看一下多元函数的Taylor公式展开。

一、Taylor’s theorem in 1D

先来回顾一下一元函数的Taylor公式（wiki - Taylor’s theorem）
1，Taylor级数

f (a) + f ' ( a ) 1 ! (x - a) + f '' ( a ) 2 ! (x - a) 2 + f ''' ( a ) 3 ! (x - a) 3 + \cdot \cdot \cdot

$f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \frac{f'''(a)}{3!}(x-a)^3 + \cdot \cdot \cdot$
也可以记为

\sum n = 0 \infty f ( n ) ( a ) n ! (x - a) n

$\sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!}(x-a)^n$
注：math is fun - Taylor series对Taylor级数也有简单有趣的介绍。
2，Taylor展开

f (x) = f (a) + f ' ( a ) 1 ! (x - a) + f '' ( a ) 2 ! (x - a) 2 + f ''' ( a ) 3 ! (x - a) 3 + \cdot \cdot \cdot + f ( k ) ( a ) k ! (x - a) k + o [(x - a) k]

$f(x) = f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \frac{f'''(a)}{3!}(x-a)^3 + \cdot \cdot \cdot + \frac{f^{(k)}(a)}{k!}(x-a)^k + o[(x-a)^{k}]$
这个就是Peano余项形式的Taylor展开式，它应用的是小o标记法。这个公式的核心思想是：“任意 n 阶可导函数”都可以展开为它在 x=a 处的导数为系数的 n+1 次多项式。
注意两点：一是用多项式近似函数；二是前提条件—— “ n 阶可导”。

二、Taylor’s theorem in 2D

1，定理（Lagrange余项Taylor公式）
设函数 f(x,y) 在点 (a,b) 的某个邻域内具有 n+1 阶连续偏导数，当 $(a+\Delta x, b + \Delta y)$ 在此邻域内时，则有

f (a + Δ x, b + Δ y) = \sum k = 0 n 1 k ! [Δ x \partial \partial x + Δ y \partial \partial y] k f (a, b) + 1 ( n + 1 ) ! [Δ x \partial \partial x + Δ y \partial \partial y] n + 1 f (a + θ Δ x, b + θ Δ y)

$f(a+\Delta x, b + \Delta y) = \sum_{k=0}^n \frac{1}{k!}[\Delta x \frac{\partial}{\partial x} + \Delta y \frac{\partial}{\partial y}]^k f(a,b) + \frac{1}{(n+1)!}[\Delta x \frac{\partial}{\partial x} + \Delta y \frac{\partial}{\partial y}]^{n+1} f(a + \theta \Delta x,b + \theta \Delta y)$
这就是二元函数的Taylor公式，其中

0<θ<1 $0 < \theta < 1$ ，前一部分是和式，后一部分是Lagrange余项。
2，简单推导
下面我从一元函数的Taylor公式和多元函数链导法来推导二元函数的Taylor公式，其中用到函数构造法。可以参考wiki-Taylor’s theorem
一元函数Taylor公式如下

f (a + Δ x) = f (a) + f' (a) Δ x + 1 2 f'' (a) (Δ x) 2 + \cdot \cdot \cdot + 1 n ! f (n) (a) (Δ x) n + o [(Δ x) n]

$f(a + \Delta x) = f(a) + f'(a)\Delta x + \frac{1}{2}f''(a)(\Delta x)^2 + \cdot \cdot \cdot + \frac{1}{n!}f^{(n)}(a)(\Delta x)^n + o[(\Delta x)^{n}]$
若二元函数 f(x,y) 在点 (a,b) 处可微，根据二元函数微分的定义有

f (a + Δ x, b + Δ y) - f (a, b) = \partial f ( a , b ) \partial x Δ x + \partial f ( a , b ) \partial x Δ y + o (ρ)

$f(a + \Delta x, b + \Delta y) - f(a,b) = \frac{\partial f(a,b)}{\partial x} \Delta x + \frac{\partial f(a,b)}{\partial x} \Delta y + o(\rho)$
其中，

ρ=(Δx)2+(Δy)2−−−−−−−−−−−−√ $\rho = \sqrt{(\Delta x)^2 + (\Delta y)^2}$ 表示二维平面上两点间的距离。
将上式移项，可得

f (a + Δ x, b + Δ y) = f (a, b) + \partial f ( a , b ) \partial x Δ x + \partial f ( a , b ) \partial x Δ y + o (ρ)

$f(a + \Delta x, b + \Delta y) = f(a,b) + \frac{\partial f(a,b)}{\partial x} \Delta x + \frac{\partial f(a,b)}{\partial x} \Delta y + o(\rho)$
若二元函数 f(x,y) 在点 (a,b) 处具有二阶偏导数，可构造一个函数

g (t) = f (a + t Δ x ρ, b + t Δ y ρ)

$g(t) = f(a + t\frac{\Delta x}{\rho}, b + t\frac{\Delta y}{\rho})$
注：不是所有二元函数都可以转换为一元函数，前提条件是“二阶可导”。
则有：

g(0)=f(a,b),g(ρ)=f(a+Δx,b+Δy) $g(0) = f(a,b) \;,\;g(\rho) = f(a + \Delta x, b + \Delta y)$
再对g(t)求导，根据复合函数的链导法有

g' (t) = \partial f \partial x Δ x ρ + \partial f \partial y Δ y ρ

$g'(t) = \frac{\partial f}{\partial x}\frac{\Delta x}{\rho} + \frac{\partial f}{\partial y}\frac{\Delta y}{\rho}$
再求二阶导数

g'' (t) = \partial 2 f \partial x 2 (Δ x ρ) 2 + \partial 2 f \partial x \partial y Δ x ρ Δ y ρ + \partial 2 f \partial y \partial x Δ x ρ Δ y ρ + \partial 2 f \partial y 2 (Δ y ρ) 2

$g''(t) = \frac{\partial ^ 2 f}{\partial x^2}(\frac{\Delta x}{\rho})^2 + \frac{\partial ^ 2 f}{\partial x \partial y}\frac{\Delta x}{\rho}\frac{\Delta y}{\rho} + \frac{\partial ^ 2 f}{\partial y \partial x}\frac{\Delta x}{\rho}\frac{\Delta y}{\rho} + \frac{\partial ^ 2 f}{\partial y^2}(\frac{\Delta y}{\rho})^2$
则有

g' (0) = \partial f ( a , b ) \partial x Δ x ρ + \partial f ( a , b ) \partial y Δ y ρ = 1 ρ (\partial \partial x Δ x + \partial \partial y Δ y) f (a, b)

$g'(0) = \frac{\partial f(a,b)}{\partial x}\frac{\Delta x}{\rho} + \frac{\partial f(a,b)}{\partial y}\frac{\Delta y}{\rho} = \frac{1}{\rho}(\frac{\partial }{\partial x}\Delta x + \frac{\partial }{\partial y}\Delta y) f(a,b)$
上式后面一个式子是一种形式，只是一种统一的记号

g'' (0) = 1 ρ 2 [\partial 2 \partial x 2 (Δ x) 2 + 2 \partial 2 \partial x \partial y Δ x Δ y + \partial 2 \partial y 2 (Δ y) 2] f (a, b) = 1 ρ 2 (\partial \partial x Δ x + \partial \partial y Δ y) 2 f (a, b)

$g''(0) = \frac{1}{\rho ^2}[\frac{\partial ^ 2 }{\partial x^2}(\Delta x)^2 + 2\frac{\partial ^ 2 }{\partial x \partial y}\Delta x \Delta y + \frac{\partial ^ 2 }{\partial y^2}(\Delta y)^2]f(a,b) \\ = \frac{1}{\rho ^2}(\frac{\partial}{\partial x}\Delta x + \frac{\partial}{\partial y}\Delta y)^2f(a,b)$
对g(t)应用一元函数Taylor公式

g (ρ) = g (0) + g' (0) ρ + g'' (0) ρ 2 + o (ρ 2)

$g(\rho) = g(0) + g'(0)\rho + g''(0)\rho ^2 + o(\rho ^2)$
即

f (a + Δ x, b + Δ y) = f (a, b) + (\partial \partial x Δ x + \partial \partial y Δ y) f (a, b) + 1 2 (\partial \partial x Δ x + \partial \partial y Δ y) 2 f (a, b) + o (ρ 2)

三、Hessian矩阵

二元及多元函数的Taylor公式可以写成矩阵形式，这就是“海森矩阵”。下面以二元函数为例，演示一下，其他的可以参考wiki。
n = 0

f (a + Δ x, b + Δ y) = f (a, b) + o [(ρ) 0]

$f(a + \Delta x, b + \Delta y) = f(a,b) + o[(\rho)^0]$
n = 1

f (a + Δ x, b + Δ y) = f (a, b) + (\partial \partial x Δ x + \partial \partial y Δ y) f (a, b) + o (ρ) = T 0 + [\partial f \partial x \partial f \partial y] [Δ x Δ y] + o (ρ)

$f(a + \Delta x, b + \Delta y) = f(a,b) + (\frac{\partial }{\partial x}\Delta x + \frac{\partial }{\partial y}\Delta y) f(a,b) + o(\rho) = T_0 +\begin{bmatrix} \frac{\partial f}{\partial x}& \frac{\partial f}{\partial y} \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta y \end{bmatrix} + o(\rho)$
n = 2

f (a + Δ x, b + Δ y) = f (a, b) + (\partial \partial x Δ x + \partial \partial y Δ y) f (a, b) + 1 2 (\partial \partial x Δ x + \partial \partial y Δ y) 2 f (a, b) + o (ρ 2) = T 1 + ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 \partial 2 f \partial x \partial y \partial 2 f \partial x \partial y \partial 2 f \partial y 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ [Δ x Δ y] + o (ρ)

$f(a + \Delta x, b + \Delta y) = f(a,b) + (\frac{\partial }{\partial x}\Delta x + \frac{\partial }{\partial y}\Delta y) f(a,b) + \frac{1}{2}(\frac{\partial}{\partial x}\Delta x + \frac{\partial}{\partial y}\Delta y)^2f(a,b) + o(\rho ^2) \\= T_1 +\begin{bmatrix} \frac{\partial ^2 f}{\partial x^2}& \frac{\partial ^2 f}{\partial x \partial y} \\ \frac{\partial ^2 f}{\partial x \partial y}& \frac{\partial ^2 f}{\partial y^2}\end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta y \end{bmatrix} + o(\rho)$

四、Jacobi矩阵

Jacobi矩阵的定义：
设

y ⃗ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ y 1 y 2 . . . y m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ y 1 (x 1, x 2, . . ., x n) y 2 (x 1, x 2, . . ., x n) . . . y m (x 1, x 2, . . ., x n) ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

$\vec{y} = \begin{pmatrix} y_1\\ y_2 \\ ... \\ y_m \end{pmatrix} = \begin{pmatrix} y_1(x_1,x_2,...,x_n)\\ y_2(x_1,x_2,...,x_n)\\ ...\\ y_m(x_1,x_2,...,x_n) \end{pmatrix}$
是从

Rn $R^n$ 到

Rm $R^m$ 的一个可微映射，则称

⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \partial y 1 \partial x 1 \partial y 2 \partial x 1 . . . \partial y m \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 . . . \partial y m \partial x 2 . . . . . . . . . . . . \partial y 1 \partial x n \partial y 2 \partial x n . . . \partial y m \partial x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

$\begin{pmatrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_1}{\partial x_2}& ... & \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1}& \frac{\partial y_2}{\partial x_2}& ... & \frac{\partial y_2}{\partial x_n}\\ ...& ... & ... &... \\ \frac{\partial y_m}{\partial x_1}& \frac{\partial y_m}{\partial x_2}& ... & \frac{\partial y_m}{\partial x_n} \end{pmatrix}$
是

y⃗ =y⃗ (x⃗ ) $\vec{y}=\vec{y}(\vec{x})$ 在

x0→ $\vec{x_0}$ 处的Jacobi矩阵。记作

J(y⃗ (x0→) $J(\vec{y}(\vec{x_0})$ 或

\partial ( y 1 , y 2 , . . . , y m ) \partial ( x 1 , x 2 , . . . , x n )

$\frac{\partial (y_1,y_2,...,y_m)}{\partial (x_1,x_2,...,x_n)}$
回过头来，再看上面二元函数的二阶Taylor公式中的Hessian矩阵，它实际上是梯度向量

⎛ ⎝ \partial f \partial x \partial f \partial y ⎞ ⎠

$\binom{\frac{\partial f}{\partial x}}{\frac{\partial f}{\partial y}}$
的Jacobi矩阵。很明显，它是

R2 $R^2$ 空间到

R2 $R^2$ 空间的映射。