cs231n 学习 -- Lecture 3 Loss Functions and Optimization - 代码天地

cs231n 学习 -- Lecture 3 Loss Functions and Optimization

其他 2021-11-23 03:25:39 阅读次数: 0

上节课末解释了权值 W 的意义，这节主要讲 $f$ 函数的评价方法及优化，是吴恩达的机器学习课程中相关知识的深化和补充吧。

这里介绍了两种常见的评价方法：Multiclass Support Vector Machine loss and Softmax classifier.

Multiclass Support Vector Machine loss

这里直接给出表达式：

$L = \frac{1}{N} \sum_{i} L_{i} + \lambda \mathbf{R}(\mathbf{W})$

$L_{i} = \sum _{j\neq y_{i}} max(0, s_{j} - s_{y_{i}} + \Delta )$

$s_{j} = \mathbf{\mathit{f}}(x_{i},W)_{j}$

$R(W) = \sum _{k} \sum _{l} W_{k,l}^{2}$ L2 Regularization

关于 Δ 有如下解释，个人理解为一个阈值范围，在实际应用中一般初始化为1.0。

对 $L_{i}$ 运算给出如下例子，给定3个图片，得到每个图片在3个类上的判定分数。在机器学习中，max(0, - ) 通常被称为 hinge loss，用于最大间距分类，尤其是SVM。

对于正则化，在机器学习中用来解决过度拟合问题，可以让模型更加简洁。

为什么是L2 Regularization，而不是L1 Regularization $R(W) = \sum _{k} \sum _{l} \left |W_{k,l} \right |$ ，例如输入向量 $x = [1, 1, 1, 1]$ ，权值 $w_{1} = [1, 0, 0, 0]$ ， $w_{1} = [1, 0, 0, 0]$ ，则 $w_{1}^{T}x = w_{2}^{T}x = 1$ ，但是 $w_{2}$ 具有更低的损失(代价)，因此L2 Regularization是优选的，正则化L2惩罚倾向于使用更小且更具扩散的权重向量，因此鼓励最终的分类器将所有输入维度考虑到少量而不是几个输入维度并且非常强烈。正如我们将在后面看到的，这种效果可以提高分类器在测试图像上的泛化性能，并减少过度拟合。

Softmax classifier

二元 logistic 回归泛化到多类即为softmax classifier。将 hinge loss 替换为 cross-entropy loss，得到如下形式：

$L_{i} = -log(\frac{e^{f_{y_{i}}}}{\sum _{j} e^{f_{j}}})$ or $L_{i} = -f_{y_{i}} + log\sum _{j}e^{f_{j}}$

从概率的角度来解释，对于 $P(y_{i}|x_{i};W) = \frac{e^{f_{y_{i}}}}{\sum _{j} e^{f_{j}}}$ ，相当于给定 $x_{i}$ ，通过 $W$ 能正确标记到 $y_{i}$ 的概率，对于 $L_{i}$ ，我们最小化了正确类的负对数似然，这可以解释为执行最大似然估计(MLE)。原理性的东西提到的不是很多，下去再补吧。

Optimization

所谓优化即调节 $W$ 使损失函数的值最小，代价最低。提出来两种方法，数值梯度和解析梯度。

数值梯度如下图所示，根据表达式来计算：

$\frac{df(x)}{dx}=\lim_{h \to 0}\frac{f(x+h)-f(x)}{h}$

解析梯度利用微积分直接计算 $\triangledown _{W} L$

两者比较，数值梯度精度不那么高，计算比较慢，但是比较简单，解析梯度比较精准，计算快，但是容易出错，实际应用中，经常计算解析梯度并把它和数值梯度相比较来验证算法实现是否正确，这也成为梯度检测。

Gradient Descent

不断评估梯度并执行参数更新的过程称为梯度下降。

Mini-batch gradient descent 在大规模应用中，训练数据可能是百万级别，训练成本非常高昂，一个解决方式是计算批量数据的梯度，例如，在当前最先进的ConvNets中，包含256个示例的典型批次，来自整个120万训练集。然后，此批处理用于执行参数更新。

猜你喜欢

转载自blog.csdn.net/wu472269100/article/details/85639845

cs231n 学习 -- Lecture 3 Loss Functions and Optimization

CS231n笔记 Lecture 3 Loss Functions and Optimization

cs231n学习笔记-lecture3（Loss Functions and Optimization）

CS231n Lecture3-Loss Functions and Optimization学习笔记

斯坦福CS231n深度学习与计算机视觉课程学习笔记（3）——Loss Functions and Optimization

CS231n课程笔记：Leture3 Loss Functions and Optimization

CNN笔记（CS231N）——损失函数与优化（Loss Functions and Optimization）

Stanford cs231n 学习笔记（2）SVM、Loss Function、Optimization

Cs231n课堂内容记录-Lecture3

cs231n 学习 -- Lecture 8 Deep Learning Software

cs231n 学习 -- Lecture 5 Convolutional Neural Networks

cs231n 学习 -- Lecture 4 Backpropagation and Neural Networks

cs231n 学习 -- Lecture 2 Image Classification

cs231n 学习 -- Lecture 1 Course Introduction

cs231n第三节Loss Function and Optimization

CS231n学习笔记--Assignment2/3

Cs231n课堂内容记录-Lecture 8 深度学习框架

Cs231n课堂内容记录-Lecture 9 深度学习模型

cs231n学习笔记-lecture4（Backpropagation and Neural Networks）以及作业解答

CS231n Lecture2-Image Classification学习笔记

CS231n Lecture5-Convolutional Neural Networks学习笔记

CS231n Lecture6-Training Neural Networks, part I学习笔记

（李飞飞CS231n学习笔记---lecture2）数据驱动

cs231n 学习 -- Lecture 6/7 Training Neural Networks

cs231n-lecture2&3

CS231n 优化 optimization

cs231n 学习笔记（5）- 神经网络-2：Setting up data and loss

CS231n笔记 Lecture 2

卷积神经网络 + 机器视觉： L3_Loss Functions and Optimization (斯坦福课堂）

K近邻分类器（李飞飞CS231n学习笔记---lecture2：K最近邻算法）

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

更多

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)