NLP2.2:梯度下降法的收敛性证明

其他 2021-02-28 16:09:33 阅读次数: 0

1、复习凸函数

凸函数有全局最优解
神经网络是非凸函数，有大量的局部最优解，需要好的初始化(pre-training)

2、如何解决一个非凸函数：Set cover problem

在这里插入图片描述

2.1 Approach 1: Exhaustive Search——穷举法

1、遍历每一个集合：看它们是否有等于U
2、一次选择两个集合：共有16种不同的方法，看它们的并集是否满足U
3、一次选择三个集合…

考虑了所有的可能的组合，可以得到全局最优解
在这里插入图片描述

2.2 Approach 2: Greedy search：贪心算法

每次都考虑局部最优解

1、考虑所有的集合s1，s2，s3，s4，s5，s6，看他的并集是否等于U
2、每次删除掉一个集合，如果删除后，还是满足于U，就可以删掉
3、可以多次尝试，得到不同的局部最优解，筛选出最好的局部最优解

在这里插入图片描述
相比于穷举法，时间上高效很多

2.3 Approach 3：Optimization

重点：需要设计变量

对于每个子集和，都有选择和不选择两个决策
x=1时，选择si
x=0时，没有选择si

如何设计objective function

constraint1：对于任意出现在U中的元素e，必须保证至少选择了一个出现e的所有子集合。
constraint2：xi等于0/1

在这里插入图片描述

上述objective function是不是凸函数

保证定义域是凸集
目标也需要convex

对于定义域{0，1}，不满足是凸集
所以objective function不是凸函数

Approximation and Relation：问题的松弛化

目标函数是线性的
条件也是线性的
所以是个linear programming
定义域是整形的
所以是Integer Linear programming

在这里插入图片描述

设定阈值，对结果进行筛选

在这里插入图片描述

2.4 Summary

1、

Smooth vs Non-smooth
Convex or Non-convex
Constrained or Non-constrained
Continuous or Discrete

2、convex：全局最优解
3、判断convex？

定义域
一阶导数
二阶导数大于等于0
preserved operation：例如两个凸函数的相加

4、优化目标的种类

least square problem
quadratic programming
linear programming

5、非凸函数的处理：
Adam，Adagrad，SGD, RMSprof

3、梯度下降法

在这里插入图片描述

3.1 梯度下降法的复杂度

收敛性分析

在这里插入图片描述
L-Lipschitz: 平滑的函数

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_51182518/article/details/113801135

NLP2.2:梯度下降法的收敛性证明

2-4 梯度下降法的收敛证明

梯度下降算法（GD）—收敛速率证明

EM算法推导及其收敛性证明

感知机模型、学习算法、收敛性证明

感知机-收敛性证明及代码实现

感知机收敛性(Novikoff定理证明)

【机器学习】梯度下降法的证明

牛顿法的收敛速度为何比梯度下降法快？

随机梯度下降算法（SGD）—收敛速率证明

梯度与梯度下降法

【机器学习基础】EM算法详解及其收敛性证明

强化学习中值迭代收敛性推理证明

DMP(Dynamic Movement Primitives)动态运动基元算法收敛性证明

梯度下降的收敛分析

BBR算法及其收敛性

梯度下降法总结

最速梯度下降法

梯度下降法

梯度下降法——专题

理解梯度下降法

梯度下降法详解

关于梯度下降法

梯度下降法描述

AI 梯度下降法

梯度下降法总结

梯度下降法(GradientDecsent)

多元梯度下降法

梯度下降法实例

梯度下降法深入

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)