기계 학습의 일반적인 분류 방법 요약

초보인 제가 배운 것을 메모하듯이 기록하고 싶고, 또 시작하시는 분들에게 도움이 되었으면 합니다.

목차

1. 일반적인 방법과 그 핵심

1. 선형 판별 분석

2. 로지스틱 회귀

3. 베이지안 분류기

4. 결정 트리

5、SVM

2. 이러한 일반적인 방법의 장점, 단점 및 적용

1. 선형 판별 분석

(1) 장점

(2) 단점

2. 로지스틱 회귀

(1) 장점

(2) 단점

3. 베이지안 분류기

(1) 장점

(2) 단점

4. 결정 트리

(1) 장점

(2) 단점

5、SVM

(1) 장점

(2) 단점

6. 다양한 상황에서 적용 가능한 방법

(1) 데이터가 선형 분리 불가능할 때 사용하는 것이 좋습니다.

(2) 사전 확률 분포 정보가 있을 때 사용 권장

(3) 데이터 분포를 알 수 없을 때 사용하는 것이 좋습니다.

(4) 피처 속성이 많을 때는 사용하지 않는 것이 좋습니다.

3. 나이브 베이지안 분류기와 로지스틱 회귀 간의 상호 통신

4. 2분류에서 다중분류로

5. 카테고리 불균형 문제


1. 일반적인 방법과 그 핵심

1. 선형 판별 분석

모든 샘플을 차원 축소를 기반으로 1차원 좌표축에 매핑한 다음 임계값을 설정하여 샘플을 구분합니다. 매핑 기준은 클래스 간 거리가 크고 클래스 내 거리가 작습니다.

두 가지 범주를 예로 들어 보겠습니다.

목표: 최대화——

 최종 결과:

자세한 내용은 선형 판별 분석(LDA)을  참조하십시오 .

2. 로지스틱 회귀

Sigmoid 함수는 선형회귀를 이용하여 분류 작업을 수행하는데, Sigmoid 함수는 0과 1 사이에서 선형적으로 변화하는 값을 클래스 1로 판단할 확률로 제한하고, 확률 값을 비교하여 자신이 속하는 범주를 결정합니다. (다중 분류는 Sigmoid 함수를 softmax로 대체)

최대 우도 추정 방법으로 가장 적합한 W와 b를 구합니다.

목표 공식(두 범주):

자세한 내용은 로지스틱 회귀(Logistic Regression)를 참조하십시오.

3. 베이지안 분류기

샘플 데이터에 대한 가상 분포 가정을 만들고 베이지안 결정 이론, 최대 우도 추정 및 라플라스 평활을 사용하여 가장 적합한 분포 매개변수를 찾고 최종 분류기를 얻습니다(일반적으로 사용되는 가상 분포는 가우시안 분포임).

자세한 내용은 베이지안 분류자 참조 - ttya의 블로그 - CSDN 블로그

4. 결정 트리

정보 엔트로피 및 정보 이득을 사용하여 결정 노드를 결정하고 결정 트리를 구축합니다.

Decision tree_ttya의 블로그-CSDN blog_decision tree에 대한 자세한 설명 보기

5、SVM

간격이 가장 큰 분할 초평면(선형)을 찾고 커널 함수를 변환으로 사용하여 비선형 데이터 분할을 실현합니다.

솔루션은 모두 내부 제품과 관련이 있습니다.

자세한 내용은 SVM model_ttya의 블로그-CSDN blog_svm 모델의 자세한 설명을 참조하십시오.


2. 이러한 일반적인 방법의 장점, 단점 및 적용

1. 선형 판별 분석

(1) 장점

고속;

범주의 사전 지식 경험은 차원 축소 프로세스에서 사용할 수 있습니다.

(2) 단점

LDA는 가우시안 분포가 아닌 샘플의 차원 감소에 적합하지 않습니다.

LDA 차원 감소는 범주 수 N-1의 차원으로 축소될 수 있습니다. 차원 축소의 차원이 N-1보다 크면 LDA를 사용할 수 없습니다.

LDA는 데이터를 과적합할 수 있습니다.

2. 로지스틱 회귀

(1) 장점

분류 시나리오에 적합합니다.

계산 비용이 높지 않고 이해하고 구현하기 쉽습니다.

사전에 데이터 분포를 가정할 필요가 없으므로 부정확한 가정으로 인한 문제를 피할 수 있습니다.

범주를 예측할 뿐만 아니라 대략적인 확률 예측도 얻을 수 있습니다.

목적 함수는 임의의 순서로 파생될 수 있습니다.

(2) 단점

과소적합하기 쉽고 분류 정확도가 높지 않습니다.

데이터 기능이 없거나 기능 공간이 크면 성능 효과가 좋지 않습니다.

3. 베이지안 분류기

(1) 장점

간단하고 높은 학습 효율성;

분류 프로세스의 시간 및 공간 오버헤드는 적습니다.

전제 조건을 사용할 수 있습니다.

(2) 단점

변수간 독립성 가정과 가정의 분포에 영향을 받음(가정에 영향을 많이 받음, 가정이 부정확할 경우 분류 결과에도 큰 영향을 미침)

4. 결정 트리

(1) 장점

비교적 간단하다.

비선형 분류 문제를 처리할 수 있습니다.

복잡한 다단계 의사 결정에 적용하면 단계가 명확하고 수준이 명확합니다.

(2) 단점

과적합하기 쉬움;

사용 범위가 제한되어 수량으로 표현할 수 없는 일부 결정에는 적용할 수 없습니다.

다양한 체계의 발생 확률 결정은 때때로 매우 주관적이어서 잘못된 의사 결정으로 이어질 수 있습니다.

5、SVM

(1) 장점

커널 함수는 비선형 분류를 해결하기 위해 고차원 공간에 매핑하는 데 사용할 수 있습니다.

분류 아이디어는 매우 간단합니다. 샘플과 결정 표면 사이의 간격을 최대화하는 것입니다.

분류 효과가 더 좋습니다.

(2) 단점

대규모 데이터에 대한 교육은 어렵습니다.

다중 분류를 직접적으로 수행하기는 어렵지만 간접적인 방법(일대일, 일대다)을 사용할 수 있습니다.

6. 다양한 상황에서 적용 가능한 방법

(1) 데이터가 선형 분리 불가능할 때 사용하는 것이 좋습니다.

결정 트리, SVM(커널 함수), 베이지안 분류기

(2) 사전 확률 분포 정보가 있을 때 사용 권장

베이지안 분류기, 선형 판별 분석

(3) 데이터 분포를 알 수 없을 때 사용하는 것이 좋습니다.

로지스틱 회귀, 의사 결정 트리, SVM

(4) 피처 속성이 많을 때는 사용하지 않는 것이 좋습니다.

(변화가 적고 영향이 적은 일부 특성 속성은 삭제하는 것이 좋습니다(관련성이 높지 않음))

SVM(계산적으로 무거운)


3. 나이브 베이지안 분류기와 로지스틱 회귀 간의 상호 통신

두 가지 범주를 예로 들어 보겠습니다.

! ! ! 속성은 서로 관련이 없습니다! ! !

로지스틱 회귀에서 우리는\ln \frac{p(y=1 \mid x)}{p(y=0 \mid x)}=\boldsymbol{w}^{T} X+b

그리고 Bayes의 정리는 다음과 같이 알려줍니다.

P(Y=1|X) = \frac{P(X|Y=1)P(Y=1)}{P(X)}

P(Y=0|X) = \frac{P(X|Y=0)P(Y=0)}{P(X)}

그런 다음 둘은 다음과 같이 나뉩니다.

- \ln \frac{p(y=1 \mid x)}{p(y=0 \mid x)}=\ln \frac{p(x|y=0)p(y=0)}{p (x|y=1)p(y=1)}

그건:

\ln \frac{p(x|y=0)p(y=0)}{p(x|y=1)p(y=1)} = -(w^{T}x+b)

다시 베이지안 기본 공식으로 돌아갑니다.

P(Y=1|X) = \frac{P(X|Y=1)P(Y=1)}{P(X)} = \frac{P(X|Y=1)P(Y=1 )}{P(X|Y=1)P(Y=1)+P(X|Y=0)P(Y=0)} = \frac{1}{1+e^{-(w^{ T}x+b)}}

마지막은 우리의 로지스틱 회귀가 아닙니까?


4. 2분류에서 다중분류로

두 범주 학습이 다중 범주 학습으로 확장됩니다.


5. 카테고리 불균형 문제

분류 작업의 범주 불균형 문제 - 프로그래머 구함


댓글 영역에서 비판과 수정을 환영합니다. 감사합니다 ~

추천

출처blog.csdn.net/weixin_55073640/article/details/126668382