로지스틱 회귀 기계 학습을 이해하기위한 통합 프레임 워크를 따라

로지스틱 회귀 기계 학습을 이해하기위한 통합 프레임 워크를 따라

태그 : 기계 학습 LR 분류

I. 서론

  1. 내 블로그는 단지 내 아이디어와 사고 과정을 기록하기 위해, 과학 블로그의 본질이 아니다. 나는 사각 지대를 생각하지만, 우리는 우리 자신의 이해를 가질 수 있기를 바랍니다 지적에 오신 것을 환영합니다.
  2. 네트워크에있는 많은 양의 데이터에이 참조.

둘째, 이해

통합 기계 학습 프레임 워크 (MLA) :

1. 모델 (모델)
2. 전략 (손실)
3. 알고리즘 (알고리즘)

상술 한 체계에 따르면, LR은 핵심 기능의 손실을 이용한다 S 상크로스 엔트로피 .

LR : S 상 + 크로스 엔트로피

모델

여담 : 이전 블로그를 참조하십시오 : SVM 기계 학습을 이해하기위한 통합 프레임 워크를 따라 , 당신은 LR에 발견하고 SVM 모델과 알고리즘이 동일는 차이가 다른 손실 기능에있다.

주어진 데이터 세트 (\ (X ^ 1 \의 모자 {Y} ^ 1), (X ^ 2 \ 모자 {Y} ^ 2) (X ^ N \ 모자 {Y} ^ N) \ ) 여기서 \ (\ 모자 {Y} ^ I는 \ {0,1 \는} \) 안으로 \ \는 (Y는 \) 예측 나타낸다 \ (라벨 \) , 선형 함수 값 :
[F (X) = W \을 송신 ^ + B 형 \]

\ [Y = \ 시작 {예
} 1 \ 쿼드 & F (X)> 0 \\ 0, F (X) <0 \ 단부 {예} \] 동시에 : \ (\ 모자 {Y} = 1 \) 경우 \ (F (X) \) 수록, $ \ 모자 {Y} 때 = $ 0 \ (F (X) \) 가능한 한 작게.

손실

ERM (교차 엔트로피 손실 함수) : S 상 + 크로스 엔트로피.
S 상 목적은 증가한다 \ (F (X) \) 크로스 엔트로피 손실을 계산하기 위해, 0-1 사이의 값을 줌.

\ [\ 시작 {정렬} Z = \ 시그마 (F (X)) \\ & P (\ 모자 {Y} = 1 | X, W, B) = Z \\ & P (\ 모자 {Y} = 0 | X ], B)는 Z-1의 \ 단부를 정렬 W = {} \]

\ (Z의 \)의 예측 가능성을 나타낸다

경험적 위험

1 .使用\ (+ S 자형 단면 \ 엔트로피 \)的损失函数:
\ [\ 모자 {Y} = \ {}을 시작할 경우 1 \; & F (X)> 0 \; 및 \ 시그마 (F (X)) \ longrightarrow 1, 손실 = -ln (z) \\ 0 \; & F (X) <0 \; 및 \ 시그마 (F (X)) \ longrightarrow 0, 손실 = -ln (1-z) \ {단부 경우} \]

\ [손실 = - [\ LN (1-z) (모자 {Y} \ 1) 모자 {Y, Z} LN +를] \]

2 . 최우 관점에서
트레이닝 샘플 무관 가설 후 우도 함수 식이다 :

\ [\ 시작 {정렬} 손실 및 = P (\ 모자 {Y} | X, W, B) \\ & = \ prod_ {I = 1} ^ NP (\ 모자 {Y} ^ I | X ^ 난; w, b) = \\ 및 \ prod_ I = {1} ^ {N z_i ^ \ 모자 {Y}} ^ I (1 z_i) ^ {1- 모자 {Y} \ ^ I} = \\ 및 \ sum_ I = {1} ^ N 개의 \ 모자 {Y} ^ ILN z_i + (1- 모자 {Y} ^ \ I) (LN-1 z_i) \ {단부 정렬} \]

따라서, 미지의 성질의 존재를 나타내는 발견의 관점과 교차 엔트로피에도 동일한 결과 손실 함수의 최대 우도 각도에서 이들은 다시 연결한다.
이제이 링크를 탐구하기 시작했다.

3 크로스 엔트로피 최대 가능성 링크
엔트로피를

\ [H (X) = {X -E_ \ SIM P} 로그 {P (X)}] \]

KL 발산 : KL 두 분포 사이의 차이를 측정
[\ 시작 {정렬} D_ \ {KL} (P || Q를) = E_ {X \ SIM P} \ FRAC 로그 {P를 (X)} { Q (x)는}] \\ & = E_ {X \ SIM P} 로그 {P (x)는} - {로그 Q (X)}] \ 단부 정렬 {} \]

\ (D_ {} KL (P || Q)는 \) 선택된 나타낸다 (Q \) \ , 있도록 \ (P \) 여기서 높은 확률을 갖는 높은 확률. 파라미터 나타내는 간단한 측면에서 세트를 찾는 것이다 \ (Q \) 파라미터 세트 분배가 수행해야 할 때 (\ P \) 지역의 높은 확률 분포가, 파라미터의 세트는 높은 확률로 이동 될 수있는 경우.

크로스 엔트로피
\ [\ 시작 {} 배향 H (P, Q) = H (P) + D_ {} KL (P || Q) \ {단부 정렬} \]

우리의 특정 시나리오 : \ (\ 햇은 Y} {\) 에 대응하는 분포 (P \) \ 분포 \합니다 (Y \) 에 대응하는 분포 (Q \) \ 분포. (모자 {Y} \ \ \ ) 분포가 결정된다, \합니다 (Y \) 분포는 우리가 무엇을 물어이다. 즉, 그래서 \합니다 (Y \) 분포는 근사 시도 \ (\ 모자 {Y} \ ) 분포를.

우리의 시나리오에서 \ (\ 모자는 Y} {\) 결정하지만 알 수없는 (사전 분포)된다.

\ [\ 시작 {} 배향 H (\ 모자 {} Y, Y) = H (\ 모자 {Y}) + D_ {} KL (\ 모자 {Y} || Y) = \\ 및 - E_ {X \ 심 \ 모자 {Y}} 로그 \ 모자 {Y}] + E_ {X \ SIM \ 모자 {Y}} 로그 {\ 모자 {Y} (X)} - 로그 {Y (X)}] \ \ & E_ {X = \ SIM \ 모자 {}}이 Y - 로그 {Y (X)} \ {단부 정렬} \]

우리가 교차 엔트로피를 최소화 할 때
, \; H (\ 모자 {는 Y} 상기 Y는 \\) 및 분 \; \; D_ {KL이} (\ 모자 {는 Y}가 Y || \ [\를 \ {배향} 시작 및 분 \\) 및 분 \; \; E_ {X \ SIM \ 모자 {Y}} 로그 {\ 모자 {Y} (X)} - 로그 {Y (X)}] \\ 및 분 \; \; E_ {X \ 심 \ 모자 {}}이 Y - 로그 {Y (X)} \ {단부 정렬} \]

경우 (\ 모자 {Y} \ \ ) 분포가 알려져 있으며, 상기 엔트로피는 일정하고 크로스 엔트로피이고 KL 발산은 동일하다.
들면 \합니다 (Y는 \) 때문에, KL의 차이를 최소화하는 십자가 엔트로피 당량을 최소화 (H (\ 모자 {Y} ) \) \ 와 \합니다 (Y \) 독립적.

마지막 유의 \는 (E_ {X \ SIM \ 모자 {}}이 Y - 로그 {Y (X)} \) 엔트로피 \ (H (Y) \) 의 차이. 엔트로피는 변수가 이미 x의 확률 분포를 알고 생성 원하는 정보 배포 이벤트의 총량을 찾을 수 있습니다,하지만,이 방정식에 대한 \합니다 (Y- \) 분포, 알 수없는 우리가 요구하는 것입니다. 우리는 단지 원하는 \ (Y \)\ (\ 모자 {Y} \ ) 과 비슷하거나 가까운,하지만 사이로하지 그들은 서로가에 대한 확률 분포를 알 필요가 없습니다 (즉 정확한 분포를 알아야 할 사항 식)이므로 KL 발산 직접 선에 그들 사이의 차이를 사용하여 정의.
여기에 또한 저 차원 공간은 높은 차원 공간에 상승 확인한 다음이 모든 프로세스에 대해, 자신의 내적을 계산 소개 SVM에 커널, 우리는 궁극적으로 필요한 내적의 결과입니다 때 생각 . 복잡한 과정의 중간을 건너 뛰는, 궁극적 인 목표를 달성하면서 계산의 양을 줄이기 위해, 커널의 도입은, 그래서 우리는 무엇 리터 차원 모양 구체적으로 알지 못한다.

KL 발산 최소화된다 우도 추정 및 파라미터 추정 최대 값을 사용하여 모델은 동일하므로 KL 발산과 관련된 크로스 엔트로피 및 최대 우도 추정.

연산

그라데이션 하강

\ (\ 시그마 (X) '= \ 시그마 (X) (1- \ 시그마 (X)) \)
$; 손실 분 = - \ sum_ {I = 1} ^ N 개의 \ 모자 ^ {Y} 및 LN z_i + (1- 모자 \ {Y} ^ I) (LN-1 z_i) $
\ (Z = \ 시그마 (F (X)) \)

\ [\ 시작 {정렬} \ FRAC {\ 부분 L} {\ w 부분} = - \ sum_ {I = 1} ^ N 개의 \ 모자 {Y} ^ 난 FRAC {1} {z_i} z_i (1- \ z_i) + X ^ I (1- 모자 {Y} ^ i)는 \ FRAC {1} {1} z_i (-1) z_i (1 z_i) \ X ^ I & = \\ - \ sum_ {I = 1 } ^ N 개의 \ 모자 {Y} ^ I (1 z_i) X ^ I- (1- 모자 {Y} ^ I \) z_ix ^ 난 및 \\ = - \ sum_ {I = 1} ^ N (\ 모자 {Y} ^ I-z_i) X ^ I & = \\ - \ sum_ I = {1} ^ N (\ 모자 {Y} ^ I- \ 시그마 (w ^ 송신 ^ 난 + B)) × I ^ \ 일단 정렬 {} \]

\ [\ 시작 {정렬} ^ {K + 1} = w ^ K w - \ 에타 \의 FRAC {\ 부분 L} {\ 부분 w} \\ & = w ^ K + \ 에타 \의 sum_ {I = 1} ^ N (\ 모자 {Y} ^ I-z_i) X ^ I \ 단부 정렬 {} \]

가 현저한 속성 구배 업데이트이다 \ (\ 모자 {Y} ^ I-z_i의 \)은 , 언제 그들 사이의 큰 갭이 클수록 경사도 업데이트.

셋째, 확장

위에서 언급 한 모델 \ (\ 모자 {Y} ^ I는 \ {0,1 \} \에서 \) 다른 표현에서 : . \ (\ 모자 {Y} ^ I는 \ {\에서 1, -1 \ } \) 또는 시그 모이 + 크로스 엔트로피 방법 손실 함수를 작성한다.
이 경우 :
. & \ 시그마 (F (X)) \ longrightarrow 1, 손실 = -ln (Z) \\; \ [\ 모자 {Y} = \ 케이스는 1 {} \ 시작; & F (X)> 0 \. -1 \; & F (X ) <0 \; & \ 시그마 (F (X)) \ longrightarrow 0, 손실 = -ln (1-z) = - LN (-z) \ {단부 경우} \]

상기 화학식에 대한 참조는 변환 이해 SVM 기계 학습을위한 통합 프레임 워크를 수행

综合得来:
\ [\ 시작 {정렬} 손실 및 = - \ sum_ {I = 1} ^ N 개의 LN (\ 시그마 (\ 모자 {Y} ^ 경우 (X ^ I))) \\ & = - \ sum_ {I = 1} ^ N 라그 \의 FRAC {1} {1 + EXP (- \ 모자 {Y} ^ 경우 (X ^ I))} \\ & = \ sum_ {I = 1} ^ N 개의 LN (1+ EXP (- \ 모자 {Y} ^ 경우 (X ^ I))) \ {단부 정렬} \]

\ [\ 시작 {정렬} \ FRAC {\ 부분 L} {\ w 부분} = - \ sum_ {I = 1} ^ N 개의 \의 FRAC {1} {\ 시그마 (\ 모자 {Y} ^ 경우 (X ^ I))} \ 시그마 (\ 모자 {Y} ^ 경우 (X ^ I)) (1- \ 시그마 (\ 모자 {Y} ^ (X ^ 나는 경우))) \ 모자 {Y} ^ IX ^ 난 \ \ & = - \ sum_ {I = 1} ^ N (\ 모자 {Y} ^ I- \ 모자 {Y} ^ 난 \ 시그마 (\ 모자 {Y} ^ 경우 (X ^ I))) X ^ I \ 일단 정렬 {} \]

\ (\ 모자 {Y} ^ I = 1 \)时, \ [\ {FRAC \ 부분 {L} \ w 부분} = - \ sum_ I = {1} ^ N (1- \ 시그마 (F (X ^ I)))] ^ 내가 X \

\ (\ 모자 {Y} ^ I = -1 \)时, \ [\ {FRAC \ 부분 {L} \ 부분 w} = - \ sum_ I = {1} ^ N (-1+ \ 시그마 (-f (X ^ I))) × I = ^ - \ sum_ I = {1} ^ N (-1 + 1- \ 시그마 (F (X ^ I))) × I = ^ - \ sum_ I = {1} ^ N - \ 시그마 (F (X ^ I)) X ^ I \]

이것은로 볼 수있다 (\ 모자 {Y} ^ 난 {1,0 \} \에서 \ \) \ 똑같은.

추천

출처www.cnblogs.com/SpingC/p/11622726.html