큰 파이썬 기반 데이터 분석 - 데이터 처리 (실제 코드)

그런 기사가 계속됩니다. 데이터 수집 및 분석 한 후, 직접 정크 많은 양의 데이터가 유효하지 있기 때문에 사용할 수 없습니다, 그것은 그들이 할 수 전에 처리해야합니다. 메인 콘텐츠 데이터의 데이터 세정 처리, 데이터 추출, 데이터 교환 및 데이터의 계산을 포함한다.

데이터 청소

데이터 정리 데이터 가치 체인에서 가장 중요한 단계이다. 심지어 쓰레기 데이터는 최적의 분석을 통해 잘못된 결과를, 더 큰 오해의 소지가 발생할 수 있습니다.

데이터 청소는, 원래의 데이터 세트 중복 데이터, 부드러운 노이즈 데이터를 삭제 데이터 분석을 필터링 등과 주제 오프 등 의미, 관련성이없는 데이터를 삭제 데이터뿐만 아니라 정보가 누락 처리하는 것입니다.

프로세스 값들에 반복

다음 단계 :

방법 1 DataFrame은 부울 시리즈, 중복 행 여부를 보여 리턴 중복 사용. 어떠한 디스플레이 FALSE가 TRUE로 표시에서 두 번째 행에서이 반복되지

2 drop_duplicates는 방법 DataFrame가 중복 행을 제거 DataFrame를 돌려 사용

중복 형식 :

중복 (집합 = 없음, = '첫 번째'를 유지 없음)

괄호 안의 인수는 열 기본 판단을 모두 쓰지 않는다, 선택 사항입니다

중복 된 일련 번호 열 또는 열 레이블의 하위 집합을 식별하기 위해, 열은 모든 기본 레이블

마지막을 나타내는 마지막에 대한 나머지 데이터가 동일 반복으로 표시되는 것을 제외하고, 이러한 첫 최초로 유지를 위해, 나머지 데이터는 동일한 반복으로 표시되는 것을 의미 같은 모든 데이터가 표시되어 허위 반복 나타낸다

형식을 drop_duplicates :

drop_duplicates ()

당신은에 괄호 안에 추가 된 열 이름에 열을 지정하려면

가져 오기 DataFrame 팬더에서 
팬더 가져 오기 시리즈에서 

# 만들기 데이터 
DF = DataFrame ({ '연령' : 시리즈 ([26,85,85), '이름'시리즈 ([ 'xiaoqiang1', 'xiaoqiang2', 'xiaoqiang2'] )}) 
DF의 

중복 된 행이 있는지 여부를 판단 # 
df.duplicated () 

# 중복 행 삭제 
(df.drop_duplicates)를

누락 된 값을 처리

누락 값을 운반은 일반적으로 두 단계, 즉, 식별 및 처리 누락 된 데이터 누락 된 데이터를 포함한다.

누락 된 데이터를 식별

NaN이 부동 소수점 및 비 손실 된 데이터의 부동 소수점 어레이로 표시되는 부동 소수점 값을 판다하고 ISNULL NOTNULL 및 함수 결정 또는 삭제하기.


# 누락 된 데이터 확인 
팬더 가져 오기 DataFrame에서을 
판다 가져 오기 read_excel에서 

데이터가 누락 # 
DF = read_excel : (r'D python_workspaceanacondarz.xlsx '를, 시트 이름 ='시트 2 ') 
DF의 

#이 누락 된 데이터를 식별 NaN이 사실이 표시됩니다. NOTNULL 대향 함수 
df.isnull ()



다음과 같이 rz.xlsx 읽기

누락 된 데이터의 처리

패딩 데이터 처리 누락 된 데이터의 경우, 행 미처리 대응 삭제. 여기에 직접 라인과 코드 인터프리터

#接着上面的继续,进行数据的处理
#去除数据中值为空的数据行
newdf=df.dropna()
newdf

#用其他数值代替NaN
newdf2=df.fillna('--')
newdf2

#用前一个数据值代替NaN
newdf3=df.fillna(method='pad')
newdf3

#用后一个数据值代替NaN
newdf4=df.fillna(method='bfill')
newdf4

#传入一个字典对不同的列填充不同的值
newdf5=df.fillna({'数分':100,'高代':99})
newdf5

#用平均数来代替NaN。会自动计算有NaN两列的数据的平均数
newdf6=df.fillna(df.mean())
newdf6

#还可以使用strip()来去除数据左右的指定字符,这个是python的基础了,这里不做演示了


추천

출처blog.51cto.com/xqtesting/2411252