팬더는 데이터를 읽고 중복 엑셀 또는 데이터 태그를 삭제

팬더 일반적 데이터를 판독 엑셀 후 중량 두 가지 방식에 필요하다면, 하나가 다른 하나는 재 직접 팬더이고, 표지
, 아래와 같이 데이터 엑셀 :
그림 삽입 설명 여기
(1)을 사용 drop_duplicates ( 집합 = 없음, 킵은 = '최초 ', 인플레 이스)는 거짓 =하지 제거 중복
: 매개 변수의
매개 변수
----------
부분 집합 : 레이블이나 열 레이블의 순서, 선택 사항
만에 의해, 중복 확인을 위해 특정 열을 고려
모든 열의 기본 사용 (열 지정 표시, 각 행은 완전히 기본 기록
, 중복 된 것으로 확인 될 것 같은)
유지 : { '첫째', '마지막', 거짓} 기본 '첫 번째'
- first: 드롭 중복 제외에 대한 첫 번째 항목에서.
- last:를 드롭 마지막 발생에서 중복을 제외하고.
- 거짓 :. 드롭 모든 중복
(첫 번째 또는 마지막 예약 중복 행을 제거하거나 모두 삭제)
상대 고정 : 부울 기본 거짓
중복은 내 놓습니다 모델 유형에 떨어 뜨리거나 사본으로 돌아갑니다
(직접 교체 또는 사본을 보관)

>>> import pandas as pd
>>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1')
>>> df
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 如上图所示,df中其实是没有重复的,因此在做删除时,是不会删除任一行的
>>> df.drop_duplicates()
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 删除Name中的相同数据,并保留最后重复中的最后一行记录
>>> df1 = df.drop_duplicates(['Name'], keep='last')
>>> df1
   ID         Name  Test_1  Test_2  Test_3
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93
# 只有当Name, Test_1中两列重复时,才删除重复行
>>> df2 = df.drop_duplicates(['Name', 'Test_1'], keep='first')
>>> df2
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
# 由于此时inreplace默认为false,因此df并不会发生变化
>>> df
   ID         Name  Test_1  Test_2  Test_3
0   0  Student_001      41      31      54
1   1  Student_002      86      22      59
2   2  Student_003      54      25      68
3   3  Student_004      82      36      92
4   4  Student_001      41      31      93

df.duplicated 사용하지 2 행 중복 표지 (집합 없음 =, = '제'계속)

>>> df['res'] = df.duplicated(['Name'], keep='last')
>>> df
   ID         Name  Test_1  Test_2  Test_3    res
0   0  Student_001      41      31      54   True
1   1  Student_002      86      22      59  False
2   2  Student_003      54      25      68  False
3   3  Student_004      82      36      92  False
4   4  Student_001      41      31      93  False
# 这样便对原数据进行了标记,可以将结果输入到excel中,做进一步处理
>>> df.to_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index=None)

그림 삽입 설명 여기
하하, 당신이 내 공개 번호로 관심, 제발 임금의 관심을 경우, 중복 된 데이터를 처리하는 방법을 학습 팬더에 대한 그의 : 파이썬 가젯. 더 편리하게하기 위해 함께 작업
그림 삽입 설명 여기

출시 다섯 개 원래 기사 · 원 찬양 한 · 전망 (96)

추천

출처blog.csdn.net/weixin_45144170/article/details/104307931