불균형 데이터 범주의 문제를 해결하는 방법 (불균형 클래스와 데이터)

카테고리 불균형을 의미 분류 작업에서, 데이터는 불균형의 다른 유형에서 샘플 수를 설정합니다.

 

카테고리 불균형이 같은 결과가 발생할 수 있습니다 종종 분류의 출력에지도 데이터의 분포의 불균형의 데이터 범주의 대부분을 집중하는 경향이 클래스의 대부분의 출력이 높은 분류 정확도으로 이어질 것입니다, 그러나에 우리의 낮은 성능의 소수 주주 지분.

 

이 문제를 해결 일반적으로 세 가지 방법이있다 :

 

1. 언더

일부 실시 예 카운터 -N, 이의 예로 근접 수를 제거하고 학습. 많은 안티 예를 폐기하기 때문에, 분류 트레이닝 조립체 초기 트레이닝 세트보다 훨씬 작다. 언더의 단점은 몇 가지 중요한 정보가 유실 될 수 있다는 것입니다. 그것은 종종 통합 학습 메커니즘의 사용이다, 반례가 다른 학습자 사용에 대한 몇 가지 컬렉션으로 나누어 져 있습니다,이 아래에 샘플링왔다 학습자에 해당하고,보기의 글로벌 관점에서 중요한 정보가 손실되지 않습니다.


대표 알고리즘 : EasyEnsemble

각 학습자가보기 언더을 수행하지만,보기의 글로벌 지점에 있지만, 중요한 정보의 손실없이 가질 수 있도록 통합 학습 메커니즘으로, 반례는, 다른 학습자 사용에 대한 몇 가지 컬렉션으로 나누어 져 있습니다.

알고리즘 작동 :

  • 첫째, 대부분의 독립적 인 클래스의 무작위 서브 세트의 복수.
  • 소수 클래스 훈련 데이터의 각각의 서브 세트를 함께베이스 분류기를 복수 생성한다.
  • 이 그룹은 결국 분류는 통합 학습 시스템을 형성하기 위해 결합합니다.

EasyEnsemble 알고리즘은 비지도 학습 알고리즘으로 간주됩니다, 그래서는 대부분의 클래스 샘플을 추출하는 모든 독립적 인 무작위 표본 추출 메커니즘을 사용하여 반환 할 수 있습니다.

 

2. 오버 샘플링

샘플 집합 교육에 긍정적 인 클래스 "오버 샘플링."했다 N은 N 다음 학습, 일부 실시 예, 이의 예로 근접성의 수를 추가하는 것이. 그러나 직접적으로 긍정적 인 사례를 복사 overfitting하는 경향이되지 않습니다. 대표적인 알고리즘은 일반적 쳐서 알고리즘을 사용한다. 이 긍정적 인 예들을 보간함으로써 트레이닝 세트의 추가적인 양의 예를 생성한다. 인해 초기 훈련보다 더 큰 양의 경우 증가 된 수에 오버 샘플링 단점은 시간이 선정 된 언더보다 큰 경우되도록 훈련 집합.


대표 알고리즘 : 강타 (합성 소수 오버 샘플링 기법)

훈련 집합의 긍정적 인 예를 통해 추가적인 긍정적 인 케이스를 생성하기 위해 보간됩니다. 이 특징 공간에서 소수의 새로운 샘플을 합성하기 위해, 기존의 클래스 소수 샘플을 분석하기 위해 K 개의 최근 접 알고리즘을 사용한다.

알고리즘 작동 :

근접하게 이격 된 샘플 소수 샘플 가정 남아 사이 쳐서 알고리즘 설정되었음을 인공 유사성 데이터 기존 소수의 샘플을 사용하여 특징 영역 사이 소수 클래스. 여기에서 우리는 간단한 아이디어를 쳐서 알고리즘을 가지고있다.

아래 그림은 데이터 세트를 나타낸다 :

알 수있는 바와 같이, 샘플 빨간색의 샘플 손실 영향이 발생할 수 있습니다 방치 사이의 시간을 결정하기 위해 일반 통화 분류 모델, 파란색, 빨간색 샘플의 수보다 훨씬 큰, 파란색은 샘플의 분류 정확도를 강조, 증가시킬 필요가있다 빨간색은 샘플 데이터 세트를 균형.

이하의 클래스 N 임의로 선택된 샘플 첫째

그리고 m 샘플의 가장 가까운 클래스가 덜 찾을 수 :

그런 다음 선택적으로 가까운 덜 m 샘플의 모든 클래스 :

이 두 가지 점에서 선택적으로 조금,이 새로운 데이터 샘플입니다.

 

3. 이동 임계

일본어 트레이닝 세트에 기초하여 학습하지만, 훈련 된 분류기 예측을 사용하는 경우, Jiangzai는 알려진 의사 결정 프로세스, 매립 식 스케일링 "임계치 이동합니다."


이진 분류 업무에서는 샘플링 할 클래스 1을 p에 따라서 음성 시료의 확률이 속하는 확률의 P 클래스로 언급되고 속한다. 하면 P / (1-P)는> 1, 우리는 양의 클래스로 샘플링. 그러나, 평형 상태에서 시료, 즉 양성 및 음성 시료의 비율이 1에 가까운 말하자면, 그 분류 임계 값은 0.5이다. 샘플이 균형되지 않을 경우, 우리는 예측 분류 임계 값을 수정해야합니다.

n 번째 데이터 집중화 양성 샘플 마이너스 샘플 해요 존재한다고 가정하고 양성 및 음성 샘플들의 확률은 m / N (균형의 경우 시료를 관찰 할 확률)을 관찰 하였다. 분류가 수행되는 경우,이 시점에서 확률 (P ') / (1-P')는 클래스로 우리 만 긍정적 샘플 실제 관찰 된 m의 확률보다 더 큰 / N 경우. 이때, m / (m +의 않음)의 새로운 치환 0.5 분류 임계 값이된다.

 

추천

출처www.cnblogs.com/HuZihu/p/11039627.html