데이터 마이닝 - 의사 결정 트리 분류

의사 결정 트리 분류는 데이터 마이닝 분석 분류 알고리즘입니다. 이름에서 알 수 있듯이, 그것은 "트리"구조를 기반으로 의사 결정을 내릴 수있는 의사 결정 트리입니다, 아주 자연적인 의사 결정 문제 처리 메커니즘의 얼굴에 인간이다. 예를 들어,도 컴퓨터를 구입의 의사 결정 트리의 간단한 결정 :

 

 

 

 

 

 

 

 

 

 그림은 우리가, 예를 들어, 의사 결정 트리를 생성하는 방법에 대해 살펴이 데이터 세트를 사용, 테스트 데이터 집합입니다.

 

 주요 작업은 각 카테고리 분류 의사 결정 트리 의사 결정 영역을 결정하기 위해, 또는 그 다른 범주 사이의 경계를 결정한다. 의사 결정 트리 분류 모델에서, 서로 다른 범주 사이의 경계는 트리 구조로 표시됩니다.

 

 위의 분석을 통해, 우리는 다음과 같은 점을 그릴 수 있습니다 :

  • 결정 특성 높이 = 최대 번호
  • 트리 짧은 더 나은
  • 확인 중요한 좋은의 트리의 루트에 속성을

따라서, 의사 결정 트리 알고리즘은 성과입니다 : 프로세스의 루트를 선택

 

 

 

 첫 번째 단계는, 루트로 속성을 선택합니다

더 인기있는 속성 선택 방법 : 정보 이득

정보 가장 큰 특성을 얻을 최선의 뿌리로 간주됩니다

: 속성을 선택하기 전에, 우리는 개념을 이해하기 시작 엔트로피 엔트로피는 무엇입니까? 정보는 무엇입니까? 방법을 측정하는?

다음 문서에서는 이해하기 쉬운 개념을 설명

http://www.360doc.com/content/19/0610/07/39482793_841453815.shtml

엔트로피는 불확실성의 크기를 표시하는 데 사용됩니다

정보 의 불확실성을 제거하는 데 사용

사실, 임의의 입력 변수에 관계없이 필요성이 S 카테고리 추천 트레이닝 세트 S는 정보의 대신에 이득 정보를 감안할 (불확실성을 제거하기 위해) 및 계정 특정 입력 변수 X 고려한 후에 결정 필요에 따라 임의의 차이를 결정하는 것은 본 카테고리 정보와 S. 입력 변수 (X)의 도입 후, 불확실성을 제거하는 것을 나타내는 큰 차이는,이 호출되어 변수 분류 큰 역할 좋은 분할 변수이다. 즉,이 종류의, 우리가 정보를 희망 같은 입력 변수 X의 도입이 때문에 입력 변수 X는 데이터 마이닝 작업을 분류하고 있다고, 필요에 따라 정보를 분류를 줄일 수있는 동안 그들은 가능한 한 적게 필요 S를 결정하기 위해 정보를 얻을 수 있습니다. 큰 정보보다 중요한 입력 변수 X를 나타내는 이득 및 따라서 좋은 분할 변수 우선 고려되어야한다.

따라서, 정보의 계산은 일반적인 생각이 얻을 :

어떤 종류의 S는 엔트로피 엔트로피 (S)의 요구에 속하는 결정하도록 제 1 계산 모든 입력 변수의 경우를 고려하지 않는) 1 미만;

2)) 상기 엔트로피 엔트로피 (X, S를 결정하는 임의의 카테고리에 속한다 본 s로 각각 입력 변수 X를 계산하는 단계;

3) 둘 사이의 차이를 계산하는 단계, 엔트로피 (S) - 변수 X에 대해, 엔트로피 (X, S)의 정보 (게인)를 가지고있다,라고 게인 (X, S) 등.

엔트로피 기사의 위의 해석과 결합, 우리는 엔트로피 공식을 찾아 올 수 :

 

 다음 그림은 매우 이미지 엔트로피의 의미를 나타냅니다 설명합니다.

 

 우리는 분석 할 데이터 세트의 상단에 또한, 게인 특정 정보를 어떻게 고려되어야한다

 

 상기 논의에서, 우리는 먼저 임의의 입력 특성을 고려하지 않고 상기 식을 사용하여 계산, 학습 집합이 필요 속한 카테고리과 엔트로피 S를 결정한다.

이 예에서, 타겟 속성, 즉 buys_computer는 두 개의 서로 다른 값, 예 않고, 따라서 두 가지 종류가없는 (m = 2)가있다. P의 경우에 대응하는 라하자 buys_computer = 예, 경우에 buys_computer N에 대응 = NO 아홉 개 샘플 P, N 샘플 5. 따라서 총 엔트로피는 다음과 같습니다

 

 즉, E (p, N) = E (9,5) = 0.940이며

그럼 우리는 재산 나이 엔트로피를 찾아 오는 연령이 건물의 엔트로피의 나이는 그래서 샘플 수, 5,4,5했다, 세 가지 속성이 있습니다 :

 

 마지막으로, 우리는 속성 정보 이득의 나이는 찾을 수 있습니다 :

 

 마찬가지로, 우리는 각각 소득, 학생 및 credit_rating 정보 이득을 찾을 수 있습니다,

 

 마지막으로, 우리는 속성 정보 이득 최대 연령을 그릴 수 있습니다, 그것은 루트 속성 연령 표기하고 있습니다.

 

좋은 뿌리를 결정한 후, 우리가이 다음 단계는 마침내 완전한 의사 결정 트리 올 때까지, 속성은 뿌리로 사용되는 왼쪽과 오른쪽 서브 트리의 다음 노드를 결정하는 단계를 수행하십시오.

의사 결정 트리 분류 알고리즘을 신속하게 분류를 예측할 수 있지만,의 (Overfitting) 이상 끼는 문제가있을 것입니다 있지만.

그 결과 의사 결정 트리의 일부는 완전히 지점의 많은, 몇 가지 특별한 경우가 될 수 생성 된 것을, 너무 적절한, 훈련 세트에 종속되어있는 작은 비 대표의 발생 수, 심지어는 단지 훈련의 일부 모델의 낮은 정확도로 이어지는 중앙.

일반적으로 두 가지 방법이있다 치기는 overfitting을 극복하는 방법을 치기 :

첫 번째 컷 : 트리를 구성하는 과정을 트리밍. 건설 지점의 조건을 충족하지 않습니다.

발생 후 전체 나무 트림 : 절단 후

 

 

 

 

 

추천

출처www.cnblogs.com/hupc/p/11831307.html