1 训练和测试数据集的划分比例
数据集的划分比例为 train: val: test = 7: 2: 1;
2 数据随机选择(打乱)
使用sklearn中的train_test_split()函数;
经过测试train_test_split()函数在默认参数,(也就是不显式地设置random_state参数的情况下),
随机种子的初始化是一种真随机的初始化,
测试过程如下:
第一次测试,打开 Jupyter Lab,使用以下代码的结果如下:
之后,关闭浏览器,在终端中关闭 Jupyter Lab的进程;
第二次测试,打开 Jupyter Lab,测试结果如下:
两次测试,都是在不同的 Jupyter Lab的进程中进行的,而随机分割的生成的结果是不同的,
由此可见,train_test_split()函数在random_state使用默认值的情况下,是一种真随机的初始化;