第4章机器学习基础

4.1 机器学习的四个分支

4.1.1 监督学习

给定一组样本，它可以学会将输入数据映射到已知目标（标注）。

4.1.2 无监督学习

在没有目标的情况下寻找输入数据的有趣变换。

4.1.3 自监督学习

自监督学习是没有人工标注的标签的监督学习

4.1.4 强化学习

在强化学习中，智能体接收有关其环境的信息，并学会选择使某种奖励最大化的行动。
游戏、自动驾驶、机器人

4.2 评估机器学习模型

4.2.1 训练集、验证集和测试集

如果可用数据很少，还有3种高级方法：

简单的留出验证
K折验证
带有打乱数据的重复K折验证

4.2.2 评估模型的注意事项

4.3 数据预处理、特征工程和特征学习

4.3.1神经网络的数据预处理

向量化
神经网络的所有输入和目标都必须是浮点数张量
值标准化
严格的标准化方法：

将每个特征分别标准化，使其平均值为0
将每个特征分别标准化，使其标准差为1

//Numpy数组实现
//假设x是一个形状为（samples,features）的二维矩阵
x -= x.mean(axis=0)
x /= x.std(axis=0)

处理缺失值
缺失值设为0。网络能够从数据中学到0意味着缺失数据，并且会忽略这个值。

4.3.2 特征工程

是指将数据输入模型之前，利用关于数据和机器学习算法的知识对数据进行硬编码的变换，以改善模型的效果。
特征工程的本质：用更简单的方式表述问题，从而使问题变得更容易。

4.4 过拟合和欠拟合

过拟合：模型在留出验证数据上的性能总是在几轮后达到最高点，然后开始下降
机器学习的根本问题是优化和泛化之间的对立。
优化：调节模型以在训练数据上得到最佳性能
泛化：训练好的模型在前所未见的数据上的性能好坏。
降低过拟合的方法叫作正则化。

第4章机器学习基础

4.1 机器学习的四个分支

4.1.1 监督学习

4.1.2 无监督学习

4.1.3 自监督学习

4.1.4 强化学习

4.2 评估机器学习模型

4.2.1 训练集、验证集和测试集

4.2.2 评估模型的注意事项

4.3 数据预处理、特征工程和特征学习

4.3.1神经网络的数据预处理

4.3.2 特征工程

4.4 过拟合和欠拟合

4.4.1 减小网络大小

4.4.2 添加权重正则化

4.4.3 添加dropout正则化

4.5 机器学习的通用工作流程

4.5.1 定义问题，收集数据集

4.5.2 选择衡量成功的指标

4.5.3 确定评估方法

4.5.4 准备数据

4.5.5 开发比基准更好的模型

4.5.6 扩大模型规模：开发过拟合的模型

4.5.7 模型正则化与调节超参数

猜你喜欢

第4章 机器学习基础

4.1 机器学习的四个分支

4.1.1 监督学习

4.1.2 无监督学习

4.1.3 自监督学习

4.1.4 强化学习

4.2 评估机器学习模型

4.2.1 训练集、验证集和测试集

4.2.2 评估模型的注意事项

4.3 数据预处理、特征工程和特征学习

4.3.1神经网络的数据预处理

4.3.2 特征工程

4.4 过拟合和欠拟合

4.4.1 减小网络大小

4.4.2 添加权重正则化

4.4.3 添加dropout正则化

4.5 机器学习的通用工作流程

4.5.1 定义问题，收集数据集

4.5.2 选择衡量成功的指标

4.5.3 确定评估方法

4.5.4 准备数据

4.5.5 开发比基准更好的模型

4.5.6 扩大模型规模：开发过拟合的模型

4.5.7 模型正则化与调节超参数

猜你喜欢

第4章机器学习基础