파이썬 데이터 전처리 (엔트리)

데이터 전처리가 데이터 분석의 첫 단계 깨끗한 데이터를 얻는 방법의 효과를 분석하기위한 조건이다.

오늘은 데이터 전처리 여러 엔트리 레벨의 방법을 배웠습니다, 그것은 노트! 도구 : python.sklearn

1 라인 정규화 / 정규화 노말

각 행의 제곱이 1이되도록, 텍스트 분류 및 클러스터링에 사용

Z = pd.DataFrame ({ "A":. 2, 1, 6, "B":. 3. 0,2]})

. (1)  에서 sklearn.preprocessing 오기 노말
 2  노말 (). Fit_transform (Z)
 . 3  # 동등한 함수 호출 sklearn 세 단계 
. 4 A = 노말 () #가 인스턴스화 
. 5 a.fit (Z) #의 모델 착용감 
. 6 A.을 변환 (Z) #의 변환

Z 후자의 표준화는

2 정규화 열 / 표준화 / 차원 Standardscaler

이 방법은 대략 가우시안 분포 데이터를 요구 된 데이터는 함께 정규화 평균 0이고 분산이 1

1   sklearn.preprocessing 수입 StandardScaler
 2 StandardScaler (). fit_transform (Z)를

도 3은, 범위 확대 / 나쁨 / 무 차원 변경

이 데이터는 [0,1]에 매핑되지만, 새로운 데이터가 추가 효과를 최대 / 최소값, 따라서 기계 학습 방법을 적용 할 수없는 거리 메트릭 설계를 재정의 할 필요

# 차원 간격 스케일링 / 레인지 변환 / 
로부터 sklearn.preprocessing 오기 MinMaxScaler 
MinMaxScaler을 (). Fit_transform (Z)

(4) 상기 이진화

임계 값 설정, 임계 값은 0의 임계치 미만, 1보다 크거나 같다. 처리 이진 분류 문제를 대상 벡터 가능

#의 기능 이진화 
에서 sklearn.preprocessing 오기 화기 
화기는 (임계 값 = 1) .fit_transform (Z) #의 임계 값이 1로 설정

5 번 - 핫 엔코딩

분류는 기본 데이터가 연속하고 질서 종종하지만, 많은 기능이 분리됩니다. 따라서, 별도의 모든 다른 값은 1이 칼럼에 대한 이산 값을 나타내는 상기 하나의 열은, 기능, 0이 기능에 대한 불연속 값이 나열되지 나타낸다

# 핫 코드 
(Z3 = {pd.DataFrame를 " " [: " M " , " F " , " M " , " F " , " B " : " 제 년 " , " 제 년 " , " 좋은 세 " , " 제 년 " ]})
 로부터 sklearn.preprocessing 오기 OneHotEncoder 
ENC = OneHotEncoder (= 범주를 "자동 " )
enc.fit (Z3) 
ANS = enc.transform ([ " M " , " 제 년 " ]). toArray () # toArray () 표시의 배열로 변환 할 수 
OneHotEncoder (범주 = " 자동 " ) .fit_transform (Z3) .toarray ()

생성 된 실시 예에서, [ "F", "M", "제 년", "연소", "큰"] 매트릭스 열 이름 4 * 5

함으로써

변경

6 누락 값 계산

측값의 주요 충전물

. 1 Z5 = pd.DataFrame ({ " " : 1,5, np.nan, " B " : np.nan, 3,5-, " C " [1,2,3 ]})
 (2)  sklearn.impute 오기 SimpleImputer
 . 3 SimpleImputer (). fit_transform (Z5) #에 대신 놓칠의 기본값 . 4 SimpleImputer (전략 = ' 정수 ' ) .fit_transform (Z5) #의 누락 값 0의 위치에 의해 정의 된 파라미터 

(7) 특성 다항식을 생성

A, 두 특성 B, 이는 1 차 다항식, A, B, A ^ 2, B ^ 2 AB 인

# 상기 다항식 구조체 
에서 sklearn.preprocessing 오기 PolynomialFeatures 
P1 = PolynomialFeatures (과정 = 2, include_bias가 interaction_only = 거짓 = FALSE) #이 특성 사각형 측면과 교차 조건을 생성 
P2 = p1.fit_transform (Z) 
p2_df = pd.DataFrame ( P2는 p1.get_feature_names 열 = ()) #는 P2 증가하는 열 이름 
p2_df의 

     X0의 X0 X1 ^ 2 ^ 2 X1의 X1의 X0 
0     2.0 3.0 4.0 6.0 9.0 
. (1) 1.0 0.0 1.0 0.0 0.0 
2 6.0 2.0 4.0 36.0 12.0

싸우지 않습니까 이혼 때문에요!

 

추천

출처www.cnblogs.com/dahongbao/p/11072057.html