前言

为了巩固深度学习知识，学习和复习了2021年度的李宏毅老师的深度学习课程

在之后的笔记中，我会将字体分为红色，黄色，和绿色，分别表示重点，次重点和了解

课程作业Github链接

本节内容及相关链接

机器学习与深度学习介绍

课程笔记

机器学习 ≈ 找出一个函数使其可以解决能够解决我们的问题

在这里插入图片描述

机器学习经历三个步骤：

定义包含未知参数的函数
定义损失函数
定义优化方法

在这里插入图片描述

模型太简单，导致具有局限线性，称为Model Bias

为什么需要非线性激活函数？简单理解为：因为所有的分段函数都可以由常量加一组非线性函数组成，详情请参考链接

在这里插入图片描述

Sigmoid函数及其变化：
$\frac{1}{1+e^{(-b+wx_1)}}$

变化如下图，可以通过链接感受一下
在这里插入图片描述

神经网络对应公式为：
$c^T\sigma(b+Wx)$
其中： $b + W x$ 如下图：
在这里插入图片描述

使用图表示为：
在这里插入图片描述

损失函数(Loss)描述了当前的模型有多好，或多不好。损失函数值越大，模型越差

损失函数符号为： $L(\theta)$ ，其中 $\theta$ 为模型要学习的参数

优化目标：使损失函数最小，即 $\boldsymbol{\theta}^{*}=\arg \min _{\boldsymbol{\theta}} L$

优化步骤：

1. 随机初始化参数 $\theta^0$
2. 求gradient, $\boldsymbol{g}=\nabla L\left(\boldsymbol{\theta}^{0}\right)$ ，详细公式为： $\boldsymbol{g}=\left[\begin{array}{c} \left.\frac{\partial L}{\partial \theta_{1}}\right|_{\boldsymbol{\theta}=\boldsymbol{\theta}^{0}} \\ \left.\frac{\partial L}{\partial \theta_{2}}\right|_{\boldsymbol{\theta}=\boldsymbol{\theta}^{0}} \\ \vdots \end{array}\right]$
3. 更新参数 $\theta$ ， $\boldsymbol{\theta}^{1} \leftarrow \boldsymbol{\theta}^{0}-\eta \boldsymbol{g}$
4. 重复2,3步骤，直到“你满意为止”

$\theta^i$ 的上角标 $i$ 表示当前的更新次数

通常会将数据集分成多组，每一组称为一个batch，计算损失函数也是以batch为单位。

Batch中的数据量称为Batch Size

当所有的数据都被看过一遍，称为一个epoch

在这里插入图片描述

两个ReLU可以大致拼成一个Sigmoid，所以如果激活函数是ReLU的话，相比Sigmoid，可能需要2倍的神经元

在这里插入图片描述

参考资料

2021年度的李宏毅老师的深度学习课程：https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php

01 机器(深度)学习介绍-学习笔记-李宏毅深度学习2021年度

前言

本节内容及相关链接

课程笔记

参考资料

猜你喜欢