통합 학습 (III) : 임의의 숲

           다양성의 향상된 모델, 결정 트리 (decision tree), 또한 고지 포기할으로서 특히 높은 변동에 대한 변동을 감소시키는 효과적인 수단, 모델의 낮은 바이어스는 포기할 (배깅) 집적 학습 (a)에있는 도입 병렬 모델은 모델은 밀어 순차적 강한 학습 학습자의 알고리즘에 약한에서 리프트의 일종이다. 컴퓨팅 모델을 증폭보다 훨씬 낮은 병렬, 빠르고, 그 상황의 대부분을 위해, 알고리즘, 포기할을 증폭 포기할 우수하다뿐만 아니라 모델이 간단하다는 자신의 장점을 가지고 있습니다.

           랜덤 포레스트 (랜덤 forsest)는 그 다양한 모델의 서브 모델이 더욱 더 서로 간의 상관 관계를 감소시키기 향상하게, 배깅의 방출을 더욱 향상된다. 많은 RF 모델에서 이것과 비슷한 좋은 성능을 증폭을 가지고 있지만, 훈련 및 가지 치기 쉽다.

 

 

 

임의 숲 알고리즘

 

      

           임의 숲과 일반 포기할 큰 차이는 무작위로 각 노드 분할 $의 m \의 LEQ P의 $ 속성의시를 선택한 다음 소위 "임의 속성 선택"이며, 다음 분할로 최고의 속성을 선택 노드입니다. 다음 알고리즘은 요약된다 :

 


 

                   입력 : = \ lbrace 트레이닝 데이터 세트 $의 D (X_ { 1} Y_ {1}) ... (X_ {N} Y_ {N}) \의 RBRACE $으로, 여기서 $ X_ {I} \에서 \ mathbb {R} ^ {P} $; $ T $ 양수 양의 정수 m에 $ \ 당량의 P $으로 양의 정수의 S $ \의 당량의 N을 $

                   출력 : 분류 또는 회귀입니다

                   . 1 단계 모든 $의 t = 1은, ..., T의 $는 다음을 수행합니다 :

                              1) 샘플 세트 D_ $ {t} $ 형성 $ S $ $ D $ 부트 스트랩 방법에 의하여 무작위로 선택된 샘플

                              2) 스톱 분할 노드에서 다음 단계가 수행되는 각 노드의 분할을 정의 충족 분기 조건까지 결정 트리 모델의 F_ $ {} $ t, 감소 생성 :

                                  . 나는 무작위로 선택된 특성을 해요;

                                 II. 가장 m 속성 및 속성 노드 I에서 해당 분할을 선택

                                III. 두 개의 서브 - 노드로 노드 분할.

                   2 단계. 출력 트리 \의 lbrace의 F_ {t} \ rbrace_ {t = 1} ^ {T} 통합, 회귀 평균, 과반수 분류를 복용.

 


 

          우리는 랜덤 포레스트 개선보다에만 추가 포기할 각 부문의 속성 무작위로 선택된 숫자를 분할한다는 것을 알 수 있습니다. 최종 모형의 분산을 감소시키는 다른 서브 모델의 상관 관계를 감소시키면서 부트 스트랩에 임의의 샘플 (샘플 데이터 교란)에 기초하여 그렇게 할 또한, 향상된 일반화 다이버 모델 입력 섭 동법을 향상 용량뿐만 아니라, 그뿐만 아니라, 비교적 Baggging 대폭 계산량을 감소시킨다.

 

샘플 외부 가방 가방 외부 오류

 

      랜덤 포레스트를 들어 각 트리 $의 F_는 {t} $, 그것은 $ D_ $이 훈련 {t}, 우리는 D의 모든 촉구 샘플이었다 $에서 $ D_ {t} $에없는 설정 샘플입니다 의 F_ {t} $ 표본에 가방 , $ D는 ^ {\ 프라임} _라고 {t}는 $ 오류를 :

                                                     \ 시작 {식} OOBE (F_ {t}) \ triangleq \ FRAC {1} {\ 버트 D_ {t} ^ {\ 프라임} \ 높이 요} \ 합 _ {(X, Y) \ D에 ^ {\ 프라임} _ {t}} L (F_ {t} (x)는, Y) \ {식 단부}   

(가방 오류 중) 오류 외부 가방, 최종 통합 임의의 숲 모델 얻을 $ f를 $ 우리는 외부 가방 오류의 모든 나무의 평균 오류의 외부 가방을 정의의 $ F_ {t} $를 참조 :

                                                      \ 시작 {} OOBE 식 (F) = \ FRAC {1} {T} \ sum_ t = {1} OOBE (F_ {t}) \ {식 단부}

여기에서 우리는 큰 혜택 부트 스트랩을 참조하십시오

          랜덤 포레스트의 성능을 학습의 평가는, 우리가 교차 검증이 필요하지 않지만, OOB에서 기차 시간을 크게 감소 중단하지 않는 한 OOBE는 고유 (intrinsicly) 평가 될 수있다.

 

본질적인 유사성 행렬 (고유 근접 매트릭스)

 

      또, 각 샘플 $ (X_ {I} Y_ {I}) $ 및 $ (X_ {J} Y_ {J})에 대한 $ $ D_을 유사도 (또는 근접)의 정도를 정의 할 수있다 $ {} IJ가 최종의 nxn 유사 매트릭스를 제공하기 위해 구체적인 방법을 쉽게 이해할 수있다 :

      $ D_ {(IJ)} = 0 $, 트리의 모든 모든 잎 노드를 통해만큼 $로 (X_ {난} Y_ {난}) $와 $ (X_ {J} Y_ {J}) (내가 NEQ의 J를 \ ) $ $ D_ {(IJ)} $ (1) 플러스 마지막 두 번 우리 모두가 무작위 나무 숲의 수의 유사성에 의해 분할 될 것 같은 리프 노드에서 발생한다.

      여기서 랜덤 포리스트에서 얻어진 유사성 행렬 샘플 간의 본질적인 유사성을 획득하는 방법은,이 행렬을 사용할 수있다 [3] :

      1) 클러스터;

      2) 측값;

      3) 아웃 라이어 검출;

 

 

기능의 중요성 (기능의 중요성)

 

       임의의 숲은보다 직접적인 방법의 중요성의 특성을 계산하는 두 가지 방법을 제공합니다 :

                   이 기능의 중요성을 분할 한 후 증분 평가의 합은 분할 노드의 모든 특성과 기능 트리입니다.

            또한이 방법의 결함의 존재는, 주로, 주목 (보웬 문헌 [4]) :

                   1) 이상의 범주에 해당 변수를 선택하는 경향이있다. 
                   2) 상관 관계 기능이있는 경우 기능을 선택 후 그들이 이전에 제거 된 기능의 순도를 줄일 수 없기 때문에, 이와 관련된 자사의 다른 기능의 중요성이 매우 낮은 될 것입니다, 그 중요한 기능입니다 분할 기능의 순서에 크게 의존이 선택됩니다.

 

            또 다른 방법은 다음 각 트리 $의 F_ {t} $, $ 특징 X_ {K} $의 중요성 중요한 하나 개의 기능은 트리의 각 기능의 중요성의 합,하고, 계산 방법 :

                   외부 1) 찾을 수 $ F_ {t} $ 샘플 가방, 외부 가방은 OOBE 오류를 계산;

                   우리가 사용하는 연산 $ OOBE ^ {\ 프라임} -OOBE $ $ F_ {t 측정 트리 후에 순서가 매트릭스, 외측 백 에러 $의 OOBE ^ {\ 프라임} $의 k 번째 행 파쇄 2) 임의의 입력 시퀀스 중요성} $ $ K는 제 기능을 $.

 

요약 :

 

           1. 임의의 숲 장점 :

               병렬 컴퓨팅 속도;

               무작위 선택은, 상기 다이버 시티를 향상시키기 위해, 계산량은 분산을 감소 감소된다;

              외부 가방 고유 오차 우리가 설정 한 후 CV 또는 유효성 검사 설정 할 필요없이 모델의 성능 평가를 할 수있다;

              기능의 중요성은, 편리한 기능 선택을 얻을 수있다

              본질적인 유사성 행렬 측값 클러스터링, 이상치 검출을 용이하게하기 위해, 샘플을 얻을 수있다.

 

           2. 단점 : 해석 능력 차이는 노이즈 편차는 여전히 용이 큰 데이터 overfitting이며, 저감 할 수 없다.

 

참고 :

   [1] 조우 지와 "기계 학습", 베이징, 칭화 대학 출판부, 2016;

     [2] 트레버 해 스티, 로버트 팁쉬 라니, 제롬 프리드먼 : 통계 학습 데이터 마이닝, 추론 및 예측, 두 번째 판, 스프링 Verleg 2009 년의 요소

     [3]  Breiman L : 설정 사용에 대한 매뉴얼, 그리고 UnderstandingRandom 숲 V3.1, http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf

     [4] " 중요한 랜덤 포레스트 특징 위해"HTTPS : //blog.csdn.net/qq_15111861/article/details/80366787

추천

출처www.cnblogs.com/szqfreiburger/p/11688101.html