python数据清洗之学习总结(三、数据清洗之数据表处理)

1.数据常用筛选方法

  1. 在数据中,选择需要的行或者列
  2. 基础索引方式,就是直接引用
  3. ioc [行索引名称或者条件,列索引名称或者标签]
  4. iloc [行索引位置,列索引位置]
  5. 注意, 区分loc和iloc
    在这里插入图片描述

2.在数据中,直接添加列

  1. 使用df.insert方法在数据中添加一列
  2. 掌握drop(labels=None,axis=0, index=None, columns=None, inplace=False)的用法
  3. labels表示删除的数据, axis表示作用轴,columns 直接指定要删除的列,inplace=True表示是否对原数据生效
  4. axis=0按行操作, axis=1按列操作
  5. 使用del函数直接删除其中一列
del basic['数据']
basic.drop(labels = ['敬老爱幼情况', '家庭和睦情况'],axis = 1,inplace=True)  basic.drop(labels= range(6,11),axis=0,inplace=True)
basic.drop(columns=df.columns[[2,3,4]],axis=1)
basic.insert(0, '出生年月', mid)

axis=0是跨行, axis=1 是跨列
axis=0: 0值表示沿着行的方向或 行标签、索引值向下执行方:
axis=1: 1值表示沿着列的方向或 列标签值执行对应方法
可以看到当axis=0时,遍历的是每行
,或者说保持列标签不变,对行进行 操作,同样的当axis=1时,遍历的是 每列,所以当我们求每列的均值时, 应该是遍历每行加总求均值
在这里插入图片描述

3. 数据的修改和查找

  1. 在数据中, 可以使用rename修改列名称或者行索引名称
  2. 使用loc方法修改数据
  3. 使用loc方法查找符合条件的数据
  4. 条件与条件之间用&或者|连接,分别代表‘且’和‘或’
  5. 使用between和isin选择满足条件的行

在这里插入图片描述
在这里插入图片描述

4. 数据整理

  1. 横向堆叠将两张表或多张表在X轴方向,即横向拼接在一起
  2. 纵向堆叠将两张表或多张表在Y轴方向,即纵向拼接在一起
  3. 注意使用concat时,axis =1用于横向,0代表纵向
  4. 注意join取inner或者outer时,分别代表交集并集
    《参考python 把几个DataFrame合并成一个DataFrame——merge,append,join,concat》

4.1 pd.concat

在这里插入图片描述
在这里插入图片描述

4.2 pd.merge

在这里插入图片描述

5.层次化索引

在这里插入图片描述

  1. 在一个轴上拥有两个或者两个以上的索引
  2. 使用loc语句进行访问
  3. loc里面接受tuple,如loc[(a,b),:]
    在这里插入图片描述
发布了86 篇原创文章 · 获赞 23 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_32392597/article/details/104441238
今日推荐