1. 목적 :이 방법은 트레이닝 세트 및 테스트 세트 검증 집합으로 데이터 세트를 설명한다.
2. 출처 : GitHub의 https://github.com/reisanar/datasets/blob/master/WestRoxbury.csv
3.이 블로그는 너무 많은 소개를하지 않습니다 때문에 데이터, 변수를 분할하는 방법을 설명합니다.
분할 항에있어서,
4.1 변수는 트레이닝 세트, 검증 및 테스트 세트로 분할
방법 1 :
## 훈련 (50 %), 검증 (30 %) 및 시험 (20 %)로 분할하는 설정 #에게 무작위 샘플 50 훈련 용 로우 ID의 % train.rows <- 샘플 (rownames (housing.df)를 희미한 ( housing.df) [1] * 0.5) # 샘플 트레이닝 세트에 있지 이미 레코드에서만 드로잉 검증 집합으로 행 ID의 30 % # 사용 setdiff ()는 트레이닝 세트에 있지 이미 레코드를 찾는 valid.rows <- 샘플 ([1] * 0.3) (housing.df 희미 setdiff (rownames (housing.df) train.rows)) 의 나머지 20 %를 할당 행 ID # 테스트 역할 test.rows <- setdiff (rownames ( housing.df) 연합 (train.rows, valid.rows)) # 해당 행의 모든 열을 회수하여 3 개 데이터 프레임을 생성 housing.train <- housing.df을 [train.rows,] housing.valid <- housing.df을 [valid.rows,] <housing.test - housing.df [test.rows,]
방법 2 :
대안 ## train.rows <- 샘플 (1 : nrow (housing.df)가 희미한 (housing.df) [1] * 0.5) housing.train <- housing.df [train.rows는] <남아 - 하우징. DF [-train.rows는] valid.rows <- 샘플 (1 : nrow (유지)) (housing.df 희미 [1] * 0.3) #dim (housing.df) [1] * 0.3 -> 조심 ! housing.valid는 <- [valid.rows를] 남아 housing.test <- 계속 [-valid.rows를]
트레이닝 및 테스트 세트로 4.2 분할 데이터
방법 1 :
훈련 ## (60 %) 및 검증 (40 %)로 분할 set.seed (1 것은) 번호 ##의 동일한 시퀀스 얻을 # 트레이닝 로우 ID의 무작위 샘플을 60 %; 나머지 40 %의 유효성 검사의 역할 () (housing.df 희미한) rownames (housing.df [1] * 0.6) 샘플 - train.rows < # 모든 트레이닝 세트로 훈련 열 ID와 열 수집 housing.train를 < - housing.df [train.rows,] 트레이닝 세트에서 이미하지 # 어사 행 ID 검증에 valid.rows <- setdiff (rownames (housing.df) train.rows) housing.valid <- 하우징. DF [valid.rows,]
방법 2 :
대안 1 ## #은 검증 세트로 모든 훈련을 행 ID없이 열을 수집 train.rows <- 샘플 (1 : nrow (housing.df), 디밍 (housing.df)에 [1] * 0.6) housing.train <- 하우징 .df [train.rows,] housing.valid <- housing.df [-train.rows,]
방법 3 :
대안 2 ## : 난수 생성 GP를 <- runif (nrow (housing.df)) # 균일 난수 생성 housing.df [GP <0.6] - housing.train < > housing.df [GP - housing.test를 < = 0.6]
방법 4 :
## 다른 3 n_obs <- nrow (housing.df) # GET 관측 횟수 permuted_rows <- 샘플 (n_obs) # 셔플 행 인덱스 : permuted_rows housing_shuffled <- housing.df [permuted_rows,] # 무작위 순서 데이터 : 소나 분할 < - 라운드 # 스플릿으로 행을 식별 (n_obs은 0.6 *) : 분할 housing.train <- housing_shuffled [1 : 분할] # 생성 열차 housing.test <- housing_shuffled [(분할 + 1) : nrow (housing_shuffled)] # 테스트를 만들