통합 학습의 기계 학습 (5) (RF \ 에이다 부스트 \ GBDT)

한 생각 통합 학습

통합 학습 아이디어는 새로운 학습자 후 여러 학습자 (회귀 분류 및 장치) 조합을 생산하는 것입니다. 약한 분류 기준 (약한 학습자) 이러한 분류의 정확도가 약간 더 랜덤 추측 분류기 (ERRORRATE <0.5)보다 길다.

성공적인 통합 알고리즘을 보장하는 약한 분류 기준 (다양성)의 다양성에있다. 그리고 통합 위태로운 알고리즘은 더 큰 성능 향상을 얻을 수 있습니다.

일반적인 생각은 통합 학습이있다 : 자루에 넣기를, 스태킹을 밀어

1.1 포기할 소개

또한 부트 스트랩 응집법 (부트 스트랩 응집)라고도 배깅 방법이 생각 : 원래 데이터 세트에 로 샘플링 다시 보유 방식은 S 분류기 새로운 S 데이터 세트는 숙련 된 통합 기술을 재 선택한다. 이 모델의 훈련 데이터는 중복 데이터를 할 수 있습니다.

샘플의 새로운 분류는 사용할 때 방법 훈련 모델을 포기할 것은 예측하는 다수결 또는 평균 최종 분류 결과를 계산하는 방법을.

배깅있어서 약한 학습자 모델 알고리즘은 실질적으로 수 예 : 선형, 릿지, 올가미, 물류, 소프트 맥스, ID3, C4.5, CART, SVM, KNN 등.

참고 : 교체와 자루에 넣기 방법 샘플링은 샘플의 수와 샘플의 원래 수의 각 부분 집합은 동일하지만, 중복 데이터의 부분 집합을 허용해야합니다.

전략의 기초를 포기할 것은 → RF → RF 변형 알고리즘 추가 트리 / 완전 랜덤 나무 포함 (TRTE) / 절연 숲을 개선하기 위해

1.2 부스팅 프로필

(부스팅) 학습을 강화하는 기계 학습 기술은 각각의 단계는 약한 예측 모델 (예를 들면, 트리)과 총 누적 가중 모델을 생성 분류 및 회귀 문제를 위해 사용될 수있다; 만약 약한 예측 모델의 각 단계 실시 예는 다음 호출 구배 (기울기 승압) 리프팅 손실 함수의 기울기에 기초하여 생성된다;

기술적 인 감각을 향상 : 약한 예측 모델의 문제가있는 경우,이 기술 업그레이드의 방법으로 강력한 예측 모델을 얻을 수 있으며,
일반적인 모델이 있습니다 밀어 에이다 부스트, 그라데이션을 (GBT / GBDT / GBRT)

1.3 스태킹 소개

스태킹 다른 모델 구성 (결합) (모델 그룹 / 그룹 학습 장치) 기술에 대한 모델을 훈련을 말한다. 즉, 다른 제 훈련 모델의 복수와, 입력함으로써 최종 모델을 얻는 새로운 새로운 모델을 훈련하는 것에 출력하는 각각의 모델은 이전 훈련. 모델로서 일반적으로 조성물의 단일 층을 사용하여 로지스틱 회귀.

2 임의의 숲 (임의의 숲)

2.1 알고리즘 흐름

  1. 부트 스트랩 샘플과 N 샘플들의 선택된 샘플 세트;
  2. 무작위로 모든에서 만든 최고의 특성 분할 노드 트리로 선택 K 속성의 속성을 선택;
  3. 위의 두 단계, 즉 m 빌드 의사 결정 트리를 번 해요 반복;
  4. 클래스에 속하는 결정 데이터의 투표 결과에 의해 형성된 m 임의 숲 나무.

    2.2 추가 트리

    다음 RF 기본 원리와 같은 차이가있다 :
  5. 트레이닝 세트의 서브 트리의 임의의 RF 샘플링 결정 트리 엑스트라 트리 원래의 데이터를 이용하여 훈련의 각 서브 세트;
  6. RF 및 종래의 의사 결정 나무를 분할 특징점으로서 선택 될 것이며, 정보, 정보 이득 비율, 지니 계수, 표준 편차의 원리 등에 기초하여 최적의 이득 특성의 값을 선택하는 것 및 여분의 트리 임의로 분할 특성 값을 선택한다 의사 결정 트리.

이것은 결정 트리에 이끌 특징 값과 같은 추가 트리 임의로 선택된 분열 지점이 생성 RF 트리의 크기보다 일반적으로 크다. RF의 추가 감소에 대한 그 분산 엑스트라 트리 모델. 는 RF보다 강한 경우에, 추가 트리 일반화.

2.3 VINES

TRTE (완전 임의 나무 퍼가기) 감독없이 데이터를 변환하는 방법입니다. 고차원 데이터를 회귀 모형에서 사용되는 더 분류에 매핑되도록 높은 차원 데이터 세트의 저 차원 사상.

TRTE 변환 알고리즘과 유사한 알고리즘 RF 방법은 데이터에 맞게 의사 결정 트리 T를 설정합니다. 결정 트리에 결정된 T 데이터 결정 나무 잎 노드 위치에서 각각의 데이터 세트를 구축 완료 후, 특징 벡터 변환 동작의 전환 위치 정보가 완성된다.

2.4 절연 숲 (IForest)

IForest는 아웃 라이어 검출 유사한 RF 방식을 사용하여 아웃 라이어 검출 알고리즘이다 IForest 차분 알고리즘 및 알고리즘은 그 RF이다 :

  1. 랜덤 샘플링 과정에서 일반적으로 소량의 데이터 만이있을 수있다;
  2. 빌드 과정 트리는 IForest 분할 알고리즘 무작위 피쳐 및 분할 임계치를 선택하는 랜덤 분할 기능을 선택한다;
  3. 의사 결정 트리를 생성하는 알고리즘 IForest 일반적으로 MAX_DEPTH 깊이는 상대적으로 작다.

차이의 이유 : 이상 검출 물체가 너무 오래가 이상 차별화 할 수로, 많은 양의 데이터가 필요하지 않습니다이며 그것은 일반적으로 너무 큰 나무 아닌, 추가시 이상치 탐지를.

이상 값을 결정하는 경우, T의 의사 결정 트리 X 테스트 샘플에 장착 빨려 들었어. 깊이 HT (x)는 시료의 각 나무 잎 노드를 계산. 이로써, 평균 깊이 H (X)를 계산 한 후 가까운 1, 범위 [0,1]에서, P (S, M)을 샘플 점 (X)의 비정상 값의 확률을 계산하기 위해 다음 식을 사용하여, 그것이 비정상적 확률이 큰 점.

2.5 RF 장점과 단점 랜덤 포레스트

RF 주요 장점 :

  1. 훈련은 속도의 장점을 가지고 대규모 훈련 샘플에 대한 병렬화 될 수있다;
  2. 의사 결정 트리의 결과로하면 무작위, 기능 목록을 선택 나누어 져 그래서 샘플 크기가 상대적으로 높은, 여전히 상대적으로 높은 성능 훈련이있는 경우;
  3. 다양한 기능의 중요성 주어진 목록을 제공;
  4. 무작위 표본 추출, 작은 훈련 된 분산 모델, 강력한 일반화 능력 때문에;
  5. RF 간단한;
  6. 기능의 누락 된 부분에 둔감.

RF 주요 단점 :

  1. 일부 상대적으로 큰 잡음 특성에서 RF 모델을 통해 피팅에 취약;
  2. 이 부서는 모델의 결과에 영향을 미칠 수있는 RF 의사 결정에 더 큰 영향을 줄 것이다 더 많은 가치를 제공합니다.

3 에이다 부스트

3.1 알고리즘 원리

적응 증폭은 반복 알고리즘이다. 각 반복 훈련 세트의 새로운 연구 결과를 생산하고 모든 샘플은 각 샘플 (유익한)의 중요성을 평가하기 위해 그 학습이 예상된다 사용합니다. 샘플 포인트보다 정확한 예측인지 우려 즉, 알고리즘은 각 샘플에 대한 가중치 부여되며, 각 훈련 학습자 마크 개별 샘플 / 예측, 그것은 그것의 중량을 감소하고, 그렇지 않으면 향상 샘플 중량의. 더 큰 비율의 반복 다음 샘플 웨이트 트레이닝의 높은 무게, 즉 더 어려워는 교육 과정에서 샘플을 구분하는 것이 중요하게 말을하는 것입니다.

에러율까지 전체 반복 프로세스가 충분히 작은 반복하거나 특정 수에 도달한다.

에이다 부스트 알고리즘은 선형 결합 기는 강한 분류로 분류되며 큰 기본 분류기 가중치의 작은 에러율 작은 가중치 분류 에러율 큰베이스 분류기로 분류 선형 건설 조합 :

최종 분류 자 함수는 변환 신호의 선형 결합에 기초한다 :

빌드 프로세스 3.2 알고리즘

  1. 가정하자 트레이닝 세트 T = {(X 1 ~ ~ ~ Y ~ 1), (2 ~ X ~ Y ~ 2 ~) .... (N ~ X ~ Y ~ ~ N)}.
  2. 초기화 훈련 데이터의 중량 배분 :그림 삽입 설명 여기
  3. 훈련 데이터 세트의 중량 분포를 갖는 것은 배울 수있는 D ~ m ~ 기본적인 분류를 얻을 :
    그림 삽입 설명 여기
  4. 계산 G ~ m ~ (x)는 트레이닝 세트의 분류 오류 :
    그림 삽입 설명 여기
  5. 컴퓨팅 모델 G ~ m ~ 우 (x)는 가중치 계수 α ~ ~ m :
    그림 삽입 설명 여기
  6. 웨이트 트레이닝 데이터 세트의 중량 배분 :
    그림 삽입 설명 여기
  7. 어디 Z ~ m ~는 표준화 계수 (정규화)입니다 :
    그림 삽입 설명 여기
  8. 기본 분류의 선형 조합을 구축 :
    그림 삽입 설명 여기
  9. : 최종 분류 수득
    그림 삽입 설명 여기
    == 영구히 ==
    다음 식 α ~ m 및 G ~ ~ ~ m의 최소 값에 도달하면, 최종 에이다 부스트 알고리즘 해결하는 것이다.
    그림 삽입 설명 여기

3.3 요약

장점 :

  1. 값은 연속적이고 불연속 값을 처리 할 수있다;
  2. 모델의 견고성은 상대적으로 강한;
  3. 강한, 간단한 구조를 설명한다.

단점 :
비정상적인 샘플 민감 이상 샘플의 반복적 인 프로세스에 가중치를 높게 체중 모델 결과의 최종 영향있다.

4 GBDT

반복 트리 상승 구배 (GBDT)도 부스팅 알고리즘이며, 에이다 부스트 다음 차이 :
에이다 부스트는 가중치의 중량을 샘플하고 반복 라운드를 업데이트 한 약한 학습자 전에 오류를 이용한 알고리즘, GBDT이 반복은 하지만 GBDT 약한 학습자 쇼핑 카트에 담기 모델을 요청해야하고, 시간에 모델 교육 GBDT 샘플 손실을 가능한 한 작게 모델에 의해 예측이 필요합니다.

DT (회귀 Decistion 나무), GB (그라데이션이 증폭)과 수축 (감쇠) : GBDT는 세 부분으로 구성되어 있습니다.

여러 의사 결정 트리로 구성, 나무는 모든 결과를 추가하면 최종 결과입니다 .

트리 및 임의 숲 사이의 반복의 차이 :

다른 구조의 상이한 샘플을 사용하여 그린 랜덤 포레스트 그 m-1 트리 관계없는 트리 구조와 전면 m의 결과 하위 트리

반복 트리의 서브 트리를 구축하는 다음 입력 데이터로 이전에 형성된 잔류 빌드 결과 후 서브 트리의 서브 트리를 구축 할 때, 언제 최종 예측 서브 트리 빌더를 예측하기 위해 상기 예측 결과를 가산 .

4.1 알고리즘 원리

  1. 입력 벡터 X 및 Y 성분 출력 변수 (X 1 ~ ~ ~ Y ~ 1), (2 ~ X ~ Y ~ ~ 2) ... (N ~ X ~ Y의 수에 주어진 샘플 연수 ~ ~ N), 목표) 값의 손실을 최소화하는 (따라서 손실 함수 L은 (Y, F (X 있음) X) 근사 함수 F를 찾는 것이다.
  2. 최소 제곱 또는 손실 함수 손실 함수의 절대 값을 이용하여 L 일반적인 손실 함수.
    그림 삽입 설명 여기
  3. 최적의 솔루션이다 :
    그림 삽입 설명 여기
  4. F (X는 F) 최적의 베이시스 함수의 가족 것으로 ~ I ~ (X) 및 중량 :
    그림 삽입 설명 여기
  5. : 사상, F ~ m ~ (X)을 얻었다 최적의 F를 찾는 욕심 알고리즘을 확장
    그림 삽입 설명 여기
    일정한 함수 F ~ 주어진 탐욕 법 여전히 근사 계산의 기울기 하강 방법을 사용하여, 최적의 베이시스 함수 F 각각을 선택하는데 어려움이있다 0 ~ (X).
    그림 삽입 설명 여기
    그라디언트 하강 학습 속도가 계산된다 :
    그림 삽입 설명 여기
  6. 데이터 (X를 ~ 난 ~, α ~ 임 ~)를 사용하여 m-트리를 제공하기 위해, 적합 잔차 쇼핑 카트에 담기 회귀 나무를 찾기 위해 계산은 (i = 1 ...... N) :
    그림 삽입 설명 여기
  7. 업데이트 모델
    그림 삽입 설명 여기

4.2 GBDT 회귀 알고리즘은 분류 알고리즘

둘 사이의 유일한 차이점은 다른 손실 기능을 선택하는 것입니다.

회귀 알고리즘은 일반적으로 손실 함수를 평균 제곱 오차 (최소 제곱) 또는 평균 절대 오차 선택되고; 일반적인 손실 함수에 분류 알고리즘은 선택을 나타내는 대수 함수이다.

4.3 요약

의 GBDT 장점 :

  1. 값은 연속적이고 불연속 값을 처리 할 수있다;
  2. 경우 상대적으로 적은 위치를 조정 패러미터도 좋은 예측 결과;
  3. 모델의 안정성이 상대적으로 강하다.

의 GBDT 단점 :
PARALLELIZE 교육 모델에 어려운 약한 학습자의 존재 사이의 연결로 인해.

추천

출처www.cnblogs.com/tankeyin/p/12144312.html