데이터 처리 균형되지 않는다 (불균형 데이터)

어떤 데이터를 균형되지 않는다

 

 고르지 못한 데이터의 형태로 매우 간단합니다. 당신이 당신에게 말을 데이터의 손에 자신을 발견 할 때 사과와 배는 거의 전 세계 유일한 배있다,

당신이 캐주얼 행인을 잡아 경우, 당신은 그가 보통 사람을 추측 배 사과 나 배를 먹었다 추측 할 수 있습니다.

 

 고르지 예측 데이터는 간단하다. 짐작하지 않았을 이상의 손 있는지, 특히 빨간색보다 그 당사자의 90 %를 차지 할 것이다. 만에 한번씩은

그들은 빨간색 때, 예측 정확도 속도가 이미 매우 높은 90 %에 도달 예측 같아요. 예, 기계가이 약간의 트릭을 알고, 그래서 마지막으로, 컴퓨터를 배웠다

몇 가지 솔루션이 있습니다 이동 타락, 모든 예측 대다수. 우리는에 대해 이야기한다.

더 많은 데이터를 얻을

 

 우선, 우리는 아직도 더 많은 데이터를 얻을 수 없다, 그것에 대해 생각해야한다. 대부분의 데이터는 추세의 이전 기간에 제시 때때로해서,

기간의 후반부까지 추이는 다른 문제이다. 데이터 후반기 획득되지 않으면, 전체 예측하므로 정확한 수 없다.

판사를 대체하는 방법

 

 일반적으로, 우리는 기계 학습의 결과를 판단하는 정확도, 비용이나 오류의 정확성을 사용합니다. 그러나이 방법은 균형되지 않은 판단을 데이터의 얼굴에,

높은 정확도와 낮은 오류가 덜 중요합니다. 우리는 다른 방법 판사를 넣을 필요가 그래서. 혼란 행렬 정밀도와 리콜을 계산하려면

그리고 정밀도와 리콜 F1 점수에 의해 재 계산. 이런 식으로 고르지 데이터 포인트는이 지역의 성공은 더 나은 판단 점수를 줄 수 있습니다.

 

재조합 데이터

 

 세 번째 방법은 가장 간단하고 조잡한 방법이다. 재결합 불균형 데이터, 즉 평형되도록.

한 가지 방법 : 가장 유사한 숫자 부분과 같은 샘플의 소수 부분 또는 합성을 복사.

두 번째 방법 : 대부분의 일부를 잘라, 수는 거의 동일했다.

다른 기계 학습 방법

 

 만약 일반적으로 무력 불균형 데이터의 얼굴 등 신경 네트워크와 같은 기계 학습 방법의 사용.

그러나 그러한 의사 결정 트리 등의 방법을 학습 일부 기계는 의사 결정 나무는 매우 고르지 데이터를 영향을받지 않습니다.

수정 된 알고리즘

 

 마지막 방법은 자신이 창조 될 알고리즘을 수정하려고 할 수 있습니다. 당신이 S 상 활성화 기능을 사용하는 경우 허용하는 것입니다,

활성화 기능, 그는 보통이 기간에 떨어지면, 임계있을 것입니다 예측 출력 임계 경우, 배에 대한 예측이 기간에 떨어지면,

배는 이제 대부분이기 때문에 애플에 대한 예측은, 그러나, 우리는 임계 값의 위치를 ​​조정해야합니다, 여기에 애플 편견의 문턱 있도록 매우 이후

때 문자, 모델은 애플이 더 나은 결과를 학습 기계 학습을 할 것이라고 예측했다.

추천

출처www.cnblogs.com/Lazycat1206/p/11911598.html