疑问:数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/like_red/article/details/88800072

问:如题。

找到的相关解答:应该数据集划分后,不然测试集里面实际上是包含了训练集的信息的,这会影响模型的测试效果。但其实当样本量足够大的时候,随机划分的训练集和测试集其实是有相同的分布的,所以理论上是可以忽略上面说到的东西的。

猜你喜欢

转载自blog.csdn.net/like_red/article/details/88800072
今日推荐