Pandas初体验（七）

第7关：数据的基本操作——去重

duplicated()

DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行。具体用法如下：

In[1]: df = DataFrame({
    
    'k1':['one']*3 + ['two']*4, 'k2':[1,1,2,3,3,4,4]})
In[2]: df
Out[2]: 
    k1  k2
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4

In[3]: df.duplicated()
Out[3]: 
0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

drop_duplicates()

drop_duplicates()用于去除重复的行数，具体用法如下：

In[4]: df.drop_duplicates()
Out[4]: 
    k1  k2
0  one   1
2  one   2
3  two   3
5  two   4

编程要求

去除df1中重复的行，并把结果保存到df2中。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def delete_duplicated():
    '''
    返回值:
    df2: 一个DataFrame类型数据
    '''

    # df1是DataFrame类型数据
    df1 = DataFrame({
    
    'k1': ['one'] * 3 + ['two'] * 4, 'k2': [1, 1, 2, 3, 3, 4, 4]})
    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    df2=df1.drop_duplicates()

    # ********** End **********#

    # 返回df2
    return df2

在这里插入图片描述

Pandas初体验（七）

猜你喜欢