版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010819416/article/details/89737607
4.1 机器学习的四个分支
4.1.1 监督学习
给定一组样本,它可以学会将输入数据映射到已知目标(标注)。
4.1.2 无监督学习
在没有目标的情况下寻找输入数据的有趣变换。
4.1.3 自监督学习
自监督学习是没有人工标注的标签的监督学习
4.1.4 强化学习
在强化学习中,智能体接收有关其环境的信息,并学会选择使某种奖励最大化的行动。
游戏、自动驾驶、机器人
4.2 评估机器学习模型
4.2.1 训练集、验证集和测试集
如果可用数据很少,还有3种高级方法:
- 简单的留出验证
- K折验证
- 带有打乱数据的重复K折验证
4.2.2 评估模型的注意事项
4.3 数据预处理、特征工程和特征学习
4.3.1神经网络的数据预处理
- 向量化
神经网络的所有输入和目标都必须是浮点数张量 - 值标准化
严格的标准化方法:
- 将每个特征分别标准化,使其平均值为0
- 将每个特征分别标准化,使其标准差为1
//Numpy数组实现
//假设x是一个形状为(samples,features)的二维矩阵
x -= x.mean(axis=0)
x /= x.std(axis=0)
- 处理缺失值
缺失值设为0。网络能够从数据中学到0意味着缺失数据,并且会忽略这个值。
4.3.2 特征工程
是指将数据输入模型之前,利用关于数据和机器学习算法的知识对数据进行硬编码的变换,以改善模型的效果。
特征工程的本质:用更简单的方式表述问题,从而使问题变得更容易。
4.4 过拟合和欠拟合
过拟合:模型在留出验证数据上的性能总是在几轮后达到最高点,然后开始下降
机器学习的根本问题是优化和泛化之间的对立。
优化:调节模型以在训练数据上得到最佳性能
泛化:训练好的模型在前所未见的数据上的性能好坏。
降低过拟合的方法叫作正则化。