pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)

1.查看标记重复元素

**1.1使用函数：**duplicated()：df.duplicated(subset=None, keep=‘first’/‘last’/False)
1.2参数解析：
A.subset：对应值是列名，表示只考虑写的列，将列对应值相同的行进行去重，默认值None，即考虑所有列；
B.keep='first/last/False’：first：默认值，除了第一次出现外，其余相同的被标记为重复；last：除了最后一次出现外，其余相同的被标记为重复；False：即所有相同的都被标记为重复；
C.使用duplicated()函数检测标记Series中的值、DataFrame中的记录行是否是重复，重复为True，不重复为False；
1.3实战：
A.keep=‘first’
在这里插入图片描述
B.keep=‘last’

C.keep=False

D.选定列标签列表，对列表内标签作为进行检测重复字段：subset

E.把重复的数据找出来，删除；
drop:需要把我们要删除的索引找出来，然后删除索引的方式，把数据删除；

2.删除重复元素

**2.1使用函数：**drop_duplicates()： df.drop_duplicates(subset=None, keep=‘first’, inplace=False)
2.2参数解析：
A.drop_duplicate是对DataFrame格式的数据，去除特定列下面的重复行,返回DataFrame格式的数据;
B.subset : 用来指定特定的列，默认所有列;
C.keep : 有三个值，{‘first’, ‘last’, False}, 默认first，删除重复项并保留第一次出现的项；
D.inplace:是直接在原来数据上修改还是保留一个副本
2.3实战：
在这里插入图片描述
编者寄：文章内容参考与学习资料；整理不易，喜欢就来个赞～

zyc53

发布了73 篇原创文章 · 获赞 24 · 访问量 2568

私信关注