통합 학습 - 자루에 넣기

이해

전체 이름 (배깅을) 포기할 빠른 번역보다 직관적 비트 아, 할, 그것이 ? 교체 샘플링 모델 교육 글쎄, 그렇게 될, 그것의 종이이 있습니다 :

알고리즘 포기할 :

  1. 하자 n 개의 부트 스트랩 샘플의 숫자

이 단계는 매우 중요하다 : 샘플을 훈련 교체 샘플링 당신이 도달 할 수 있도록, 원래는 하나 개의 데이터 집합입니다, 거기에 n 개의 데이터가 모였다.

  1. i가 N = 1에 대해 수행

크기의 bootstrip 샘플 그리기 3. \ (m를, D_i \)

\ (D_i는 \) 는 i 번째 샘플 데이터 세트를 나타낸다

  1. 기차 기본 분류 \ (h_i \)\ (D_i \)

차이점은 이전 투표 안녕하세요,이 알고리즘은 변경되지 않습니다,하지만 데이터가 변경되었습니다

  1. \ (\ 모자 Y = 모드 (H_1 (X), H_2 (X) ...) \)

모드는 공공 의미의 수를 최종 결과를 결정하는 민주적 투표를하다

부트 스트랩은 여분으로 샘플링

데이터가 균일하게 분포되도록하고, 우리가 가정 N 데이터 각각의 데이터이고, 동일 그려지 확률이 샘플 X의 샘플을 가정한다 :

$ P (x_i로부터) = \ FRAC {1} {N} $

인출되지 않는 확률은 :

\ (1-P (x_i로부터) = 1- \ FRAC {1} {N} \)

지금의 레코드의 교체와 함께이 샘플이 제공되고 N 번하는 도시되지 않은 확률은 다음과 같습니다

\ (P = (1- \ FRAC {1} {N}) ^ n \)

때 N -> 무한대의 경우 :

\ (= \ FRAC는 {1} {E}는 \ ... = 0.3682)

병원 규칙 요구 사항 제한

\ (lim_ {X \ 향하는 화살표 E 0} ^ {LN (1- \ FRAC {1} {N}) ^ N} = E {lim_ ^ {X \ 향하는 화살표 E 0} ^ {LN (1 \ {N- FRAC 1} {N}) ^ N}} = E ^ 1 = E \)

바이어스 - 분산 분해

분해 오류입니다. 비교가이 부트 스트랩 샘플 데이터 기차 할 일을 활용하는 이유는 통합이 본 과정도 설명 할 수

\ (손실 = 바이어스 + 분산 + 노이즈 \)

이 (오류 이해하는 방법 실제 및 예측 값을 , 사실, 위의 공식에서, 오류로 인한 것은 분석을해야했다 않습니다)

  • 바이어스 : 모델 자신의 편견, 모델 가정이 만들어집니다 ( 목적 함수 일 만 진짜 근사

  • 분산 : 샘플 데이터 오류를 훈련은 각 샘플은 교육의 모델이 동일하지 않습니다, 다르다.
  • 소음 : 많은 데이터 포인트를 처리 특성 "아웃 라이어"는 실제와 차이가있을 이상적인 샘플 데이터 모델입니다

케이스

또한 학교에 대해 이야기 내 자신의 밤은, 데이터에 맞게 잘하기 위해, 본 적이 없었다, 다음 모델은 매우 복잡 맞게 한 가장 직관적이고 단순 선형 회귀

일반적으로 수집 된 포인트는 이상치, 또는 분산 데이터는 매우하지 않습니다 있습니다 선형 당신이 실제 상황을 고려하지 않는 경우, 그것은 최소 제곱을인지, 해결하기 위해 이동하거나 그라데이션 하강이 결과적으로 해결할 수 있지만,해야,이 시간 단순성과 , 모델을 결과 그래서,이있을 것 더의 BIAS .

이 시간 그래서하기 위해 더 좋은 날이 모델에서 발생하는 문제 항목 또는 추가를 제공함으로써, 데이터에 맞게 정기적으로 ... 그처럼 너무 맞지 합니다. 또는 준에 대한 의사 결정 트리와 같은 더 복잡한 모델에 대한 함께, 그들은 "균형 문제를."직면하게 될 것이다

너무 많이, 너무 당신이 변화를 "오프셋"수, 투표를 수행, 부트 스트랩 훈련 모델에 대한 접근 방식을 (교체와 샘플링)이 소개하려는 전체, 교체와 샘플링의 방법 모델을 훈련, 샘플은 꽤 적절한 비유 오 보인다 위험을 줄이기보다 적절한 교육도 포트폴리오 이론으로 이해 될 수있다 얻을 것이다.

엄격한 증거 허리 순서의 위험을 감소에서, 학교에서했다, 그리고 그 때 파도 보완

추천

출처www.cnblogs.com/chenjieyouge/p/12003998.html