高数

问题解决流程
- 引例：回归
回归
- 引例：分类
分类
- 线性可分
- - FLD
- 线性不可分
智能计算讨论范围
下降法
- 为什么要用下降法？- 解析解很难写出公式或很复杂难计算
- 有哪些常用的下降法？- 梯度下降&高斯-牛顿法
分类&回归
线性分析
常用不等式
- 绝对值不等式
- 柯西不等式
- 算术-几何平均不等式
数列极限
- 序列极限
- - 上极限
  - 下极限
级数
点集拓扑
- 开集
- - 开集性质
- 闭集
- - 闭集性质
- 紧集
- - Heine-Borel定理
- 例题：判断 $\mathbb{R^n}$ 和 $\emptyset$ 是否开闭紧？
函数连续性
- 函数连续定义
- - Lipshitz函数是连续函数
  - - Lipshitz函数与机器学习
- 连续函数逼近
- - 拉格朗日插值定理
- 连续函数性质
- - 最值定理
  - 介值定理
- 不连续函数
导数
- 一元函数导数
- - 定义
  - 意义
- 性质
- $C^\infty$
多元多值函数
- 可微
- 梯度存在

问题解决流程

idea - math - optimization - algorithm

引例：回归

在这里插入图片描述

question：123456x，预测x值为多少？
idea： $f(x_i)=a^tx_i+b, f(x_i)\approx y_i$ ，使用 $f (x)$ 预测新样本 $x$ 。
optimization：使用L1、L2范数度量 $f(x_i)$ 和 $y_i$ 的差距，即loss function。如何求出参数使得loss function最小？- 偏导数为0。
algorithm：GD、Newton’s method

回归

在这里插入图片描述

引例：分类

智能计算讨论范围

智能计算讨论的是问题解决流程中的math和optimization。

在这里插入图片描述

下降法

为什么要用下降法？- 解析解很难写出公式或很复杂难计算

在这里插入图片描述

考虑求极值问题场景，需要找到一个 $x^*$ 使得 $f(x^*)$ 小于等于邻域内的任意 $f (x)$ ， $x^*$ 是极小值问题的解，因为 $x^*$ 的解析解很难写出公式或者可以写出但是公式很复杂难计算，所以考虑使用下降法。

解析解：指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式，从解的表达式中就可以算出任何对应值。解析解为一封闭形式的函数，因此对任一独立变量，皆可将其代入解析函数求得正确的相依变量。因此，解析解也称为闭式解。

解析法：用来求得解析解的方法称为解析法，解析法是常见的微积分技巧，如分离变量法等。

下降法亦称极小化方法，是一类重要的迭代法。这类方法将方程组求解问题转化为求泛函极小问题。

使用下降法，找出一系列函数值递减的 $f (x)$ 序列，这个下降过程不是一直持续下去的过程，根据一些停止条件得到一个 $x_k$ 时，这个 $x_k$ 即优化问题的解 $x^*$ 。

有哪些常用的下降法？- 梯度下降&高斯-牛顿法

梯度下降（Gradient Descent）- 本质：一阶泰勒展开式近似

在这里插入图片描述

优化问题：在 $x$ 的邻域内，找到一个 $\Delta x$ ，使得 $f(x)\gt f(x+\Delta x)$ ，且 $f(x+\Delta x)$ 在该邻域最小。

数学问题：如何找到该邻域最小 $f(x+\Delta x)$ ？

问题难点：因为 $f (x)$ 优化问题的解析解不容易求解，因此 $f(x+\Delta x)$ 优化问题的解析解也不容易求解。

解决方法：考虑 $f(x+\Delta x)$ 的线性近似——一阶泰勒展开式。将 $\underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x)$ 问题转换为 $\underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x)$ ，因为 $\underset {||\Delta x||\le \varepsilon}{min} (f(x)+a^t \Delta x)$ 中 $f (x)$ 是固定的， $\Delta x$ 是变量，所以问题可再次简化为 $\underset {||\Delta x||\le \varepsilon}{min} a^t \Delta x$ 。

在这里插入图片描述

如何找到一阶泰勒展开式的最优解（最小值）？- 柯西一施瓦兹不等式

根据柯西一施瓦兹不等式(Cauchy-Schwarz inequality)， $a^t \Delta x$ 的最小值是显而易见的。

在这里插入图片描述

由以上不等式可得： $\le <a,b> \le ||a||·||b||$ 。
当且仅当a和b共线同向时，a和b线性正相关， $\le ||a||·||b||$ 成立。
当且仅当a和b共线反向时，a和b线性负相关， $\le <a,b>$ 成立。

在这里插入图片描述

当 $\Delta x=-\lambda a$ 时，表示 $\Delta x$ 与 $a$ 线性负相关，共线反向， $a^t \Delta x=-\varepsilon ||a||$ 成立。

一阶泰勒展开式中，a表示梯度，所以下降最快的方向为梯度的反方向。

结论：下降最快的方向为梯度的反方向，即梯度下降。

$\lambda$ 即为学习率。

在这里插入图片描述

牛顿法 - 本质：二阶泰勒展开式近似

在这里插入图片描述

优化问题：在 $x$ 的邻域内，找到一个 $\Delta x$ ，使得 $f(x)\gt f(x+\Delta x)$ ，且 $f(x+\Delta x)$ 在该邻域最小。

数学问题：如何找到该邻域最小 $f(x+\Delta x)$ ？

问题难点：因为 $f (x)$ 优化问题的解析解不容易求解，因此 $f(x+\Delta x)$ 优化问题的解析解也不容易求解。

解决方法：考虑 $f(x+\Delta x)$ 的线性近似——二阶泰勒展开式。将 $\underset {||\Delta x||\le \varepsilon}{min} f(x+\Delta x)$ 问题转换为 $\underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x)$ ，其中 $f (x)$ 是固定的， $\Delta x$ 是变量， $a^t \Delta x$ 是关于 $\Delta x$ 一次函数， $\frac 1 2 (\Delta x)^t P \Delta x)$ 是 $\Delta x$ 二次函数。

因为使用二阶泰勒展开式近似， $f(x+\Delta x)$ 可看做一个二次函数，可以找到全局最优值，而不需要在邻域中讨论，所以可以删除 $||\Delta x||\le \varepsilon$ 条件。

在这里插入图片描述

如何找到二阶泰勒展开式的最优解（最小值）？- 梯度=0

令 $g(\Delta x)=\underset {\Delta x}{min} (f(x)+a^t \Delta x+\frac 1 2 (\Delta x)^t P \Delta x)$ ，对 $g(\Delta x)$ 求关于 $\Delta x$ 的微分，即梯度 $\nabla g$ ，令 $\nabla g = 0$ ，求出 $\Delta x = -P^{-1}a=-(\nabla^2f(x))^{-1}(\nabla f(x))$ 即为最优解。实际使用时，为了防止 $(\nabla^2f(x))^{-1}(\nabla f(x))$ 过大，偏移过远，拟合不准确的问题，需要添加学习率 $\lambda$ ，即 $\Delta x =-\lambda(\nabla^2f(x))^{-1}(\nabla f(x))$ 。