第4章 机器学习基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010819416/article/details/89737607

4.1 机器学习的四个分支

4.1.1 监督学习

给定一组样本,它可以学会将输入数据映射到已知目标(标注)。

4.1.2 无监督学习

在没有目标的情况下寻找输入数据的有趣变换。

4.1.3 自监督学习

自监督学习是没有人工标注的标签的监督学习

4.1.4 强化学习

在强化学习中,智能体接收有关其环境的信息,并学会选择使某种奖励最大化的行动。
游戏、自动驾驶、机器人

4.2 评估机器学习模型

4.2.1 训练集、验证集和测试集

如果可用数据很少,还有3种高级方法:

  1. 简单的留出验证
  2. K折验证
  3. 带有打乱数据的重复K折验证

4.2.2 评估模型的注意事项

4.3 数据预处理、特征工程和特征学习

4.3.1神经网络的数据预处理

  1. 向量化
    神经网络的所有输入和目标都必须是浮点数张量
  2. 值标准化
    严格的标准化方法:
  • 将每个特征分别标准化,使其平均值为0
  • 将每个特征分别标准化,使其标准差为1
//Numpy数组实现
//假设x是一个形状为(samples,features)的二维矩阵
x -= x.mean(axis=0)
x /= x.std(axis=0)
  1. 处理缺失值
    缺失值设为0。网络能够从数据中学到0意味着缺失数据,并且会忽略这个值。

4.3.2 特征工程

是指将数据输入模型之前,利用关于数据和机器学习算法的知识对数据进行硬编码的变换,以改善模型的效果。
特征工程的本质:用更简单的方式表述问题,从而使问题变得更容易。

4.4 过拟合和欠拟合

过拟合:模型在留出验证数据上的性能总是在几轮后达到最高点,然后开始下降
机器学习的根本问题是优化和泛化之间的对立。
优化:调节模型以在训练数据上得到最佳性能
泛化:训练好的模型在前所未见的数据上的性能好坏。
降低过拟合的方法叫作正则化。

4.4.1 减小网络大小

4.4.2 添加权重正则化

4.4.3 添加dropout正则化

4.5 机器学习的通用工作流程

4.5.1 定义问题,收集数据集

4.5.2 选择衡量成功的指标

4.5.3 确定评估方法

4.5.4 准备数据

4.5.5 开发比基准更好的模型

4.5.6 扩大模型规模:开发过拟合的模型

4.5.7 模型正则化与调节超参数

猜你喜欢

转载自blog.csdn.net/u010819416/article/details/89737607