[R] Day7 언어 연구는 데이터 세트는 훈련, 검증 및 테스트 세트로 나누어 져 노트

 

1. 목적 :이 방법은 트레이닝 세트 및 테스트 세트 검증 집합으로 데이터 세트를 설명한다.

 

2. 출처 : GitHub의  https://github.com/reisanar/datasets/blob/master/WestRoxbury.csv

 

 

3.이 블로그는 너무 많은 소개를하지 않습니다 때문에 데이터, 변수를 분할하는 방법을 설명합니다.

 

분할 항에있어서,

 

4.1 변수는 트레이닝 세트, 검증 및 테스트 세트로 분할

방법 1 :

## 훈련 (50 %), 검증 (30 %) 및 시험 (20 %)로 분할하는 설정 

#에게 무작위 샘플 50 훈련 용 로우 ID의 % 
train.rows <- 샘플 (rownames (housing.df)를 희미한 ( housing.df) [1] * 0.5) 

# 샘플 트레이닝 세트에 있지 이미 레코드에서만 드로잉 검증 집합으로 행 ID의 30 % 
# 사용 setdiff ()는 트레이닝 세트에 있지 이미 레코드를 찾는 
valid.rows <- 샘플 ([1] * 0.3) (housing.df 희미 setdiff (rownames (housing.df) train.rows)) 

의 나머지 20 %를 할당 행 ID # 테스트 역할 
test.rows <- setdiff (rownames ( housing.df) 연합 (train.rows, valid.rows)) 

# 해당 행의 모든 열을 회수하여 3 개 데이터 프레임을 생성  
housing.train <- housing.df을 [train.rows,]
housing.valid <- housing.df을 [valid.rows,]
<housing.test - housing.df [test.rows,]

 

방법 2 :

대안 ## 

train.rows <- 샘플 (1 : nrow (housing.df)가 희미한 (housing.df) [1] * 0.5) 
housing.train <- housing.df [train.rows는] 

<남아 - 하우징. DF [-train.rows는] 
valid.rows <- 샘플 (1 : nrow (유지)) (housing.df 희미 [1] * 0.3) #dim (housing.df) [1] * 0.3 -> 조심 ! 
housing.valid는 <- [valid.rows를] 남아 
housing.test <- 계속 [-valid.rows를]

 

트레이닝 및 테스트 세트로 4.2 분할 데이터

방법 1 :

훈련 ## (60 %) 및 검증 (40 %)로 분할 
set.seed (1 것은) 번호 ##의 동일한 시퀀스 얻을 

# 트레이닝 로우 ID의 무작위 샘플을 60 %; 나머지 40 %의 유효성 검사의 역할 
() (housing.df 희미한) rownames (housing.df [1] * 0.6) 샘플 - train.rows < 

# 모든 트레이닝 세트로 훈련 열 ID와 열 수집 
housing.train를 < - housing.df [train.rows,] 

트레이닝 세트에서 이미하지 # 어사 행 ID 검증에 
valid.rows <- setdiff (rownames (housing.df) train.rows) 
housing.valid <- 하우징. DF [valid.rows,]

  

방법 2 :

대안 1 ## 
#은 검증 세트로 모든 훈련을 행 ID없이 열을 수집 
train.rows <- 샘플 (1 : nrow (housing.df), 디밍 (housing.df)에 [1] * 0.6) 
housing.train <- 하우징 .df [train.rows,] 
housing.valid <- housing.df [-train.rows,]

  

방법 3 :

대안 2 ## : 난수 생성 
GP를 <- runif (nrow (housing.df)) # 균일 난수 생성 
housing.df [GP <0.6] - housing.train < 
> housing.df [GP - housing.test를 < = 0.6]

  

방법 4 :

## 다른 3 
n_obs <- nrow (housing.df) # GET 관측 횟수 
permuted_rows <- 샘플 (n_obs) # 셔플 행 인덱스 : permuted_rows 
housing_shuffled <- housing.df [permuted_rows,] # 무작위 순서 데이터 : 소나 
분할 < - 라운드 # 스플릿으로 행을 식별 (n_obs은 0.6 *) : 분할 
housing.train <- housing_shuffled [1 : 분할] # 생성 열차 
housing.test <- housing_shuffled [(분할 + 1) : nrow (housing_shuffled)] # 테스트를 만들

  

추천

출처www.cnblogs.com/shanshant/p/12239446.html