Python数据处理笔记

下面数据的处理方式参考:威斯康辛乳腺癌数据集

1.将数据标签化
也就是将一列数据映射成range范围内的值(标签个数-1)
参考:sklearn.preprocessing.LabelEncoder

2.将数据分成训练集和测试集
参考:sklearn.model_selection.train_test_split

3.数据属性对结果的影响:特征重要性
类标签的影响因素可能有很多属性,但是不同属性对最终结果的影响程度不一样。
在随机森林算法中,有一个参数(feature_importances_)可以通过训练出的模型来显示出每一列对最终结果的影响程度,这个参数只有在以决策树为基础的算法中存在
参考:feature_importances_

4.删除数据中的列
调用pandas包中的drop进行删除,注意调用该函数时,里面的参数inplace,默认情况下是false:不会在原表上进行改变,而是创建一个原表的副本;True:直接改变原表
参考:pandas的drop函数

5.转变数据类型
参考:astype

6.查看该列中都有哪些数据
参考:unique

7.将数组转化成列表
参考:tolist

8.对缺失数据进行填充
参考:fillna

9.取出序列中最大元素的索引
参考:np.argmax

发布了217 篇原创文章 · 获赞 9 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_31672701/article/details/103957429