【智能计算数学】微积分

问题解决流程

idea - math - optimization - algorithm

引例:回归

在这里插入图片描述

question:123456x,预测x值为多少?
idea f ( x i ) = a t x i + b , f ( x i ) ≈ y i f(x_i)=a^tx_i+b, f(x_i)\approx y_i f(xi)=atxi+b,f(xi)yi,使用 f ( x ) f(x) f(x)预测新样本 x x x
optimization:使用L1、L2范数度量 f ( x i ) f(x_i) f(xi) y i y_i yi的差距,即loss function。如何求出参数使得loss function最小?- 偏导数为0。
algorithm:GD、Newton’s method

回归

在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述

引例:分类

分类

在这里插入图片描述

线性可分

在这里插入图片描述

FLD

在这里插入图片描述

FLD思想:同类点近,不同点远。

根据这个思想,实际的做法是找一条直线,其方向为 ω \omega ω,对线性可分的点进行投影,在该直线上,同类点的投影点更近,异类点的投影点更远。进而做一条垂直于该直线的分类线。

先找到投影λ与xi的关系,然后利用w与v垂直内积为0,求出投影λ的表达式,

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

同类相近:要使得C1方差小和C-1的方差小,则将两个优化问题合并为一个优化问题。
异类相远:没有办法计算所有点,所以选择代表性的均值的距离作为两个集合的距离。

在这里插入图片描述

再次将两个优化目标合并为一个单优化目标进行优化。

在这里插入图片描述

线性不可分

在这里插入图片描述

智能计算讨论范围

智能计算讨论的是问题解决流程中的math和optimization。

在这里插入图片描述

下降法

为什么要用下降法?- 解析解很难写出公式或很复杂难计算

在这里插入图片描述

考虑求极值问题场景,需要找到一个 x ∗ x^* x使得 f ( x ∗ ) f(x^*) f(x)小于等于邻域内的任意 f ( x ) f(x) f(x) x ∗ x^* x是极小值问题的解,因为 x ∗ x^* x的解析解很难写出公式或者可以写出但是公式很复杂难计算,所以考虑使用下降法。

解析解:指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式,从解的表达式中就可以算出任何对应值。解析解为一封闭形式的函数,因此对任一独立变量,皆可将其代入解析函数求得正确的相依变量。因此,解析解也称为闭式解。

解析法:用来求得解析解的方法称为解析法,解析法是常见的微积分技巧,如分离变量法等。

下降法亦称极小化方法,是一类重要的迭代法。这类方法将方程组求解问题转化为求泛函极小问题。

使用下降法,找出一系列函数值递减的 f ( x ) f(x) f(x)序列,这个下降过程不是一直持续下去的过程,根据一些停止条件得到一个 x k x_k xk时,这个 x k x_k xk即优化问题的解 x ∗ x^* x

有哪些常用的下降法?- 梯度下降&高斯-牛顿法

梯度下降(Gradient Descent)- 本质:一阶泰勒展开式近似

在这里插入图片描述

优化问题:在 x x x的邻域内,找到一个 x + Δ x x+ \Delta x x+Δx,使得 f ( x ) > f ( x + Δ x ) f(x)\gt f(x+\Delta x) f(x)>f(x+Δx),且 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)在该邻域最小。

数学问题:如何找到该邻域最小 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)

问题难点:因为 f ( x ) f(x) f(x)优化问题的解析解不容易求解,因此 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)优化问题的解析解也不容易求解。

解决方法:考虑 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)的线性近似——一阶泰勒展开式。将 m i n ∣ ∣ Δ x ∣ ∣ ≤ ε f ( x + Δ x ) \underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x) ∣∣Δx∣∣εminf(x+Δx)问题转换为 m i n ∣ ∣ Δ x ∣ ∣ ≤ ε ( f ( x ) + a t Δ x ) \underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x) ∣∣Δx∣∣εmin(f(x)+atΔx),因为 m i n ∣ ∣ Δ x ∣ ∣ ≤ ε ( f ( x ) + a t Δ x ) \underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x) ∣∣Δx∣∣εmin(f(x)+atΔx) f ( x ) f(x) f(x)是固定的, Δ x \Delta x Δx是变量,所以问题可再次简化为 m i n ∣ ∣ Δ x ∣ ∣ ≤ ε a t Δ x \underset {||\Delta x||\le \varepsilon}{min} a^t \Delta x ∣∣Δx∣∣εminatΔx

在这里插入图片描述在这里插入图片描述

如何找到一阶泰勒展开式的最优解(最小值)?- 柯西一施瓦兹不等式

根据柯西一施瓦兹不等式(Cauchy-Schwarz inequality), a t Δ x a^t \Delta x atΔx 的最小值是显而易见的。

在这里插入图片描述

由以上不等式可得: − ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ ≤ < a , b > ≤ ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ -||a||·||b|| \le <a,b> \le ||a||·||b|| ∣∣a∣∣∣∣b∣∣≤<a,b>≤∣∣a∣∣∣∣b∣∣
当且仅当a和b共线同向时,a和b线性正相关, < a , b > ≤ ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ <a,b> \le ||a||·||b|| <a,b>≤∣∣a∣∣∣∣b∣∣成立。
当且仅当a和b共线反向时,a和b线性负相关, − ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ ≤ < a , b > -||a||·||b|| \le <a,b> ∣∣a∣∣∣∣b∣∣≤<a,b>成立。

在这里插入图片描述

Δ x = − λ a \Delta x=-\lambda a Δx=λa时,表示 Δ x \Delta x Δx a a a线性负相关,共线反向, a t Δ x = − ε ∣ ∣ a ∣ ∣ a^t \Delta x=-\varepsilon ||a|| atΔx=ε∣∣a∣∣成立。

一阶泰勒展开式中,a表示梯度,所以下降最快的方向为梯度的反方向。

结论:下降最快的方向为梯度的反方向,即梯度下降。

λ \lambda λ即为学习率。

在这里插入图片描述

牛顿法 - 本质:二阶泰勒展开式近似

在这里插入图片描述

优化问题:在 x x x的邻域内,找到一个 x + Δ x x+ \Delta x x+Δx,使得 f ( x ) > f ( x + Δ x ) f(x)\gt f(x+\Delta x) f(x)>f(x+Δx),且 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)在该邻域最小。

数学问题:如何找到该邻域最小 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)

问题难点:因为 f ( x ) f(x) f(x)优化问题的解析解不容易求解,因此 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)优化问题的解析解也不容易求解。

解决方法:考虑 f ( x + Δ x ) f(x+\Delta x) f(x+Δx)的线性近似——二阶泰勒展开式。将 m i n ∣ ∣ Δ x ∣ ∣ ≤ ε f ( x + Δ x ) \underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x) ∣∣Δx∣∣εminf(x+Δx)问题转换为 m i n Δ x ( f ( x ) + a t Δ x + 1 2 ( Δ x ) t P Δ x ) \underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x) Δxmin(f(x)+atΔx+21(Δx)tPΔx),其中 f ( x ) f(x) f(x)是固定的, Δ x \Delta x Δx是变量, a t Δ x a^t \Delta x atΔx是关于 Δ x \Delta x Δx一次函数, 1 2 ( Δ x ) t P Δ x ) \frac 1 2 (\Delta x)^t P \Delta x) 21(Δx)tPΔx) Δ x \Delta x Δx二次函数。

因为使用二阶泰勒展开式近似, f ( x + Δ x ) f(x+\Delta x) f(x+Δx)可看做一个二次函数,可以找到全局最优值,而不需要在邻域中讨论,所以可以删除 ∣ ∣ Δ x ∣ ∣ ≤ ε ||\Delta x||\le \varepsilon ∣∣Δx∣∣ε条件。

在这里插入图片描述
在这里插入图片描述

如何找到二阶泰勒展开式的最优解(最小值)?- 梯度=0

g ( Δ x ) = m i n Δ x ( f ( x ) + a t Δ x + 1 2 ( Δ x ) t P Δ x ) g(\Delta x)=\underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x) g(Δx)=Δxmin(f(x)+atΔx+21(Δx)tPΔx),对 g ( Δ x ) g(\Delta x) g(Δx)求关于 Δ x \Delta x Δx的微分,即梯度 ∇ g \nabla g g,令 ∇ g = 0 \nabla g = 0 g=0,求出 Δ x = − P − 1 a = − ( ∇ 2 f ( x ) ) − 1 ( ∇ f ( x ) ) \Delta x = -P^{-1}a=-(\nabla^2f(x))^{-1}(\nabla f(x)) Δx=P1a=(2f(x))1(f(x))即为最优解。实际使用时,为了防止 ( ∇ 2 f ( x ) ) − 1 ( ∇ f ( x ) ) (\nabla^2f(x))^{-1}(\nabla f(x)) (2f(x))1(f(x))过大,偏移过远,拟合不准确的问题,需要添加学习率 λ \lambda λ,即 Δ x = − λ ( ∇ 2 f ( x ) ) − 1 ( ∇ f ( x ) ) \Delta x =-\lambda(\nabla^2f(x))^{-1}(\nabla f(x)) Δx=λ(2f(x))1(f(x))

在这里插入图片描述

缺点:求解Hessian矩阵的复杂度很高。所以如果Hessian矩阵没有快速计算的方法就会导致迭代过慢,所以牛顿法没有梯度下降法使用频率高。

分类&回归

线性分析

常用不等式

绝对值不等式

∣ a 1 + ⋅ ⋅ ⋅ + a n ∣ ≤ ∣ a 1 ∣ + ⋅ ⋅ ⋅ + ∣ a n ∣ |a_1 + · · · + a_n| \le |a_1| + · · · + |a_n| a1+⋅⋅⋅+ana1+⋅⋅⋅+an

在这里插入图片描述

柯西不等式

< a , b > ≤ ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ <a,b>\le||a|| \cdot ||b|| <a,b>≤∣∣a∣∣∣∣b∣∣

( ∑ i = 1 n a i b i ) 2 ≤ ( ∑ i = 1 n a i 2 ) ( ∑ i = 1 n b i 2 ) (\sum_{i=1}^n a_i b_i)^2 \le (\sum_{i=1}^n a_i^2)(\sum_{i=1}^n b_i^2) (i=1naibi)2(i=1nai2)(i=1nbi2)

在这里插入图片描述

在这里插入图片描述

数学研究问题,从群(加)到线性空间(加乘),到赋范线性空间(距离)再到hilbert空间(几何(角度))。

在这里插入图片描述

内积的概念很重要,因为有了内积就有了几何结构。
在这里插入图片描述

算术-几何平均不等式

在这里插入图片描述
在这里插入图片描述

数列极限

序列极限

上极限

下极限

在这里插入图片描述

在这里插入图片描述

级数

无穷数列和。
在这里插入图片描述
在这里插入图片描述

点集拓扑

在这里插入图片描述

开集

在这里插入图片描述

开集性质

任意个开集之并是开集,有限个开集之交是开集。

闭集

“闭”:包含极限点。

在这里插入图片描述

闭集性质

任意个闭集之交是闭集,有限个闭集之并是闭集。

紧集

有界闭集。

Heine-Borel定理

R n \mathbb{R^n} Rn 上紧集的任何开覆盖都存在有限子覆盖。

例题:判断 R n \mathbb{R^n} Rn ∅ \emptyset 是否开闭紧?

在这里插入图片描述

R n \mathbb{R^n} Rn 不是紧集,因为没有边界。

函数连续性

在这里插入图片描述

函数连续定义

在这里插入图片描述

Lipshitz函数是连续函数

在这里插入图片描述

Lipshitz函数与机器学习

参考:Lipschitz函数与机器学习 - gwave的文章 - 知乎

深度学习对输入很敏感,微小的扰动就可能对结果产生很大的影响,将少量精心选择的长臂猿梯度噪声混人熊猫的照片,算法就把熊猫误认为是长臂猿了,Lipschitz常数是种衡量网络稳定性的测度,bound住了输出变化对输入微扰的上限。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

连续函数逼近

问题

拉格朗日插值定理

在这里插入图片描述
在这里插入图片描述

连续函数性质

最值定理

在这里插入图片描述

波尔查诺-维尔斯特拉斯定理,又称为致密性定理。指有界数列必有收敛子列。从极限点的角度来叙述致密性定理,就是:有界数列必有极限点。

介值定理

在这里插入图片描述

不连续函数

在这里插入图片描述
在这里插入图片描述

导数

一元函数导数

定义

在这里插入图片描述

意义

在这里插入图片描述

性质

在这里插入图片描述

极值定理

在这里插入图片描述

微分中值定理

在这里插入图片描述

洛必达法则

在这里插入图片描述

常用公式

在这里插入图片描述
在这里插入图片描述

C ∞ C^\infty C

C 1 C^1 C1:函数一阶导数存在。
C 2 C^2 C2:函数二阶导数存在。
C 3 C^3 C3:函数三阶导数存在。

C ∞ C^\infty C:函数任意阶导数都存在。

多元多值函数

可微

梯度存在

在这里插入图片描述

什么情况下梯度存在可以推出函数可微?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/guai7guai11/article/details/125463502