제 5 장 사전 이론

데이터 및 특성은 기계 학습의 상한을 결정하고, 모델과 알고리즘은 단지이 한계에 접근.

5.1 데이터 정리

5.1.1 샘플링 데이터 샘플

·         샘플을 대표하는

·         샘플 비율이 균형을 어떻게 고르지 샘플 처리

·         데이터의 전체 양을 고려

5.1.2 이상 값 (널 값)에 대한

·         아웃 라이어를 식별 및 복제
     팬더 : ISNULL는 () / 중복은 () 엔트리 ---- 중복 여부를 판단

·         (중복 데이터 포함)을 버리고
     팬더 : drop_duplicated /) 드롭 () / dropna (()

·         원래 값 대체하는 새로운 속성과 비정상
     팬더 : fillna ()를

·         초점 의미
     팬더 : ) (fillna를

·         경계 값은 의미
     팬더 : ) (fillna를

·         보간
     팬더 : 보간 () --- 에 대한 시리즈

      값이 헤드 부에 삽입 한 경우, 수치의 제 번호가 삽입되고;

      값이 뒤쪽 인서트 향해있는 경우 수치로 상호 번째 숫자의 크기;

      중앙 부분에 삽입 할 때, 두 수 전 평균 후;

NP NumPy와 오기 AS 
PD AS 오기 팬더 
[ "A0", "A1", "A1", "A2", "A3", "A4"] : DF = pd.DataFrame ({ 'A' 
                   'B': "B0", "B1", "B2", "B2", "B3", 없음, 
                   'C': 1,2, 없음, 3, 4, 5, 
                   'D': 0.1,10.2, 11.4,8.9,9.1,12, 
                   'E'[10,19,32,25,8, 없음, 
                   'F.': 'F0', 'F1' ', G2', 'F3', 'F4 ''F5 ']}) 
인쇄 (DF) 
# 전단 (df.duplicated ()) 
# 널 행 삭제 
# df.dropna DF = () 
# 널 속성 제거 
(서브 세트를 DF = df.dropna = 'B']) 
삭제 된 반복 횟수는, 최초의 (디폴트 유지 # 선), 마지막 마지막 유지하는 
DF = 안양한다.drop_duplicates ( 'A'= '첫 번째'유지) 
DF [ 'B'] = df.fillna ( '*의 B') 
시리즈에서만 수행 # 보간 처리 
DF [ 'E'= 안양 [ 'E'를]. () 보간
. upper_q = DF [ 'D'] 분위수 (Q = 0.75)
lower_q = DF [ 'D'] 분위수 (Q = 0.25). 
K = 1.5 
q_int = upper_q - lower_q 
DF = DF [DF [ 'D'] <upper_q + K * q_int] DF [ "D"] "lower_q - * k는 q_int] 
# 전단 (pd.Series ([1, 없음, 9,16,25). 보간 없다 ()) 
프린트 (DF) 
#要求F列必须以F开头
DF [트루 item.startswith 경우 ( ' F ') DF (리스트 항목은 다른 거짓 ['F ']. 값)] 
출력 (DF)
'' ' 
결과
ABCDEF
. 1 A1 A1 2.0 10.2 19.0 F1
. 3 3.0 8.9 25.0 A2 A2 F3
. 4 4.0 9.1 8.0 A3 A3 F4
' '

  

추천

출처www.cnblogs.com/Cheryol/p/11423573.html