xgboost 기본적인 사용법 (재 인쇄) sklearn는 학습 통합

HTTPS : //blog.csdn.net/qq_30868235/article/details/80370060에서 재판

1. 데이터 세트

      함수의 데이터 세트를 통해 유입 세트 sklearn 고유 번호 필기 인식 데이터 세트 mnist. 1,797 샘플 mnist 총 8 * 8 항에있어서, 0 내지 9 10 태그 번호.

###로드 데이터
sklearn 수입 셋 #로드 데이터 세트에서
자리 =의 datasets.load_digits () #로드 mnist 데이터 세트
인쇄 (digits.data.shape)를 # 지문 입력 공간 차원
인쇄 (digits.target.shape) # 인쇄물 공간 차원

 

"" "
(1797, 64)
(1797)
" ""

2. 데이터 세트 분할

      파라미터 test_size 점유 random_state 난수 초기 설정 비율 테스트 인 것을 분할 데이터 세트에서의 sklearn.model_selection train_test_split 기능 (설정 한 실험 결과를 재현 할 수 있도록).

데이터 분할 ###
함수 train_test_split 분할 sklearn.model_selection 수입 train_test_split 번호로드 데이터로부터
x_train, x_test, y_train, android.permission.FACTOR. = Train_test_split (digits.data # 기능 공간
digits.target # 출력 공간
test_size = 0.3, # 테스트 세트를 차지 30 %
random_state = 33)를 재생하기위한 실험 # 난수가 구비

 

3. 관련 모델 (모델로드 - 교육 모델 - 모델 예측)

      XGBClassifier.fit () 함수는 예측을 위해 모델을 사용하여, XGBClassifier.predict () 함수 모델을 학습하는 데 사용됩니다.

비즈니스 모델 ###
오기 XGBClassifier xgboost에서
모델 XGBClassifier = () # 부하 모델 (모델 이름 모델)
model.fit (x_train, y_train) # 훈련 모델 (트레이닝 세트)
y_pred = model.predict (x_test) # 모델 예측 (테스트 세트) y_pred 예측 결과

4. 성능 평가

      sklearn.metrics accuracy_score 함수는 모델 예측의 정확도를 결정하기 위해 사용된다.

### 성능 메트릭

sklearn.metrics이 accuracy_score #准确率가져올에서
(y_test, y_pred) 정확도 = accuracy_score을
인쇄 ( "accuarcy : % .2f %%"% (정확도 * 100.0))

5. 기능의 중요성

      xgboost는 기능 plot_importance으로 그림을 그릴, 기능의 중요성을 분석합니다.

###特征重要性
PLT 등 수입 matplotlib.pyplot
xgboost 수입 plot_importance에서의
도, AX = plt.subplots (figsize = (10, 15))
plot_importance (모델, 높이 = 0.5 max_num_features = 64, AX = AX)
PLT. 보여 주다()

영상

6. 전체 코드

### load module
from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

### load datasets
digits = datasets.load_digits()

### data analysis
print(digits.data.shape) # 输入空间维度
print(digits.target.shape) # 输出空间维度

### data split
x_train,x_test,y_train,y_test = train_test_split(digits.data,
digits.target,
test_size = 0.3,
random_state = 33)

### fit model for train data
model = XGBClassifier()
model.fit(x_train,y_train)

### make prediction for test data
y_pred = model.predict(x_test)

### 모델 평가
의 정확성 = accuracy_score (y_test, y_pred)
인쇄 ( "accuarcy : % .2f %%"% (정확도 * 100.0))
"" "
95.0 %
" ""

추천

출처www.cnblogs.com/xitingxie/p/11323114.html