数据集shuffle的作用 - 代码天地

数据集shuffle的作用

其他 2021-03-09 02:14:09 阅读次数: 0

在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。

以猫狗分类为例，假如数据集是

Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat

所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。

那如果Dog和Cat一直交替，会不会就不过拟合了呢？

Dog，Cat，Dog，Cat，Dog ，Cat，Dog，...

假如目标函数是： [公式]
使用梯度下降优化：
给定权重取值

和迭代步step的情况下，固定的数据集顺序意味着固定的训练样本，也就意味着权值更新的方向是固定的，而无顺序的数据集，意味着更新方向是随机的。如下图中的A点，如果固定的更新方向是红色箭头方向，则很难收敛到最优点，而如果更新方向是随机的，则有可能就沿着白色箭头方向收敛到最优点。在这里插入图片描述
所以固定的数据集顺序，严重限制了梯度优化方向的可选择性，导致收敛点选择空间严重变少，容易导致过拟合。

猜你喜欢

转载自blog.csdn.net/weixin_43485035/article/details/109907035

数据集shuffle的作用

数据集shuffle的重要性

paddle.reader.shuffle() 修改数据集大小的方法

分类任务对数据集shuffle的重要性

shuffle数据（permutation）

shuffle数据参数

机器学习中打乱数据集有什么作用

大数据名词(1) -Shuffle

大数据-Shuffle工作机制

对DataFrame中的数据进行shuffle

shuffle

训练集、验证集、测试集的作用

MapReduce中combine、partition、shuffle的作用是什么

Python中对数组集进行按行打乱shuffle

【Reporting Service】报表项表达式只能引用当前数据集作用域内的字段或指定的数据集作用域内的字段

numpy用于shuffle训练集数据

【caffe】caffe需要shuffle训练数据吗？

大数据技术 - MapReduce的Shuffle及调优

Shuffle阶段数据的压缩机制

读书笔记-Hadoop大数据shuffle

大数据系列之MapReduce的shuffle原理

Pytorch使用shuffle打乱数据

Shuffle 阶段的数据压缩机制

声音合成与克隆——制作用于训练的声音数据集

目标检测——val集的作用

Spark Shuffle（三）Executor是如何fetch shuffle的数据文件（转载）

机器学习，训练集，验证集和测试集的作用

训练集-验证集-测试集的关系与作用

训练集、验证集、测试集的作用及划分方法

训练集，测试集，检验集的区别与作用

今日推荐

周排行

阿里云服务器ECS开放8080端口

求正弦和余弦

链表倒数第n个节点

vue.js入门（13）实战demo

Java学习——day 15

My First Day in CSDN

Oracle11g 密码延迟认证导致library cache lock的情况分析

SAP ALV输出字段内容前增加空格

CloudFlare 推出免费 VPN 服务「Warp」，你懂的！

BUG(跑SLAM14-ch10)

每日归档

更多

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)

2025-03-07(0)