로지스틱 회귀 기계 학습의 개인 요약

1. 로지스틱 회귀

1.1 원리 알고리즘

로지스틱 회귀는 유사한 개념의 선형 회귀의 사용에 기초 선형 인 직선을 얻을 데이터 (각 시각 두 종류) 두 가지로 나누어진다.

그러나 다음과 같은 두 가지 일반적인 경우는 직접 맞춤 직선 상당한 잘못된 분류로 이어질 수있는 데이터의 일부를 파생 볼 수 있기 때문에 가장 작은 손실 함수는 단순히이 바로 얻을하고자하는, 선형 회귀만큼 간단하지 않다.

            

그것은 다음과 같은 두 지점의 선형 회귀 다른 :

(1)은 분류 문제를 수행하므로 카테고리 라벨과 Y- 데이터를 훈련있을 것이다 I를 , 예컨대 1 또는 0.

(2)는 시그 모이 드 함수를 도입

 

이다와 시그 모이 기능을 특징 :

1)이 0보다 큰 경우, 시그 모이 드 함수가 크고, 0.5보다 값이 1에 더 가까운 것보다 압축 함수 값이다. 이 0보다 작 으면 반대로, 시그 모이 드 함수의 값이 0.5 이상이어야한다.

또한, 우리는이 큰 확률의 종류를 확인할 수 또는 0.5보다 큰 확률의 종류를 표시 속한 카테고리 판정 단지 이진 분류이다해야하고, g의 값 (z)가 일치 따라서 0.5, 그것은 같은 판정 된 경우, 카테고리에 속하는 확률을 나타내는 g (Z)를 사용할 수있다.

멀리 직선의 점에서,보다 명확하게 분류 특성을 도시하고,이 때 얻은 값이 얻어진 값 g (Z)을 대입 한 후, 더 많은 양의 무한대 또는 음의 무한대한다면 나타내는 1 경향 이 클래스에 속하는의 더 큰 확률이 설명은 분류 g (z) 담당자가 매우 적합 확률.

2) 계산 시그 모이 드 함수의 특성은 :

 

이것은 우리는 g (Z)을 구하는 것을 도울 수있다, 즉, 분류 확률 P (Y = 1 | x)와, θ T X의 관계 우리는 최대 우도 함수 뒤에 취득하는.

 

위의 식으로, 우리는 분명히 θ 알고있는 경우 분류를 예측하기 위해 할 수있는 것을 볼 수 있습니다. 그러나,이 시간에 우리는 훈련 데이터를 라벨로 분류되는 교육 θ를 통해 얻을 필요가있다.

다음은 가장 가능한 경우, 우리는 데이터를 얻을 생각, 최우 추정 방법 θ를 사용합니다. 독립적 인 데이터, 그것은 데이터 즉, 우도 함수를 얻을 확률에 의해서도 얻어 질 수 있기 때문이다.

 

제에서 화학식 I의 최대 값을 구하는가 도출 0 설명하는 것도 바람직하다 얻어진 θ.

그러나, 컴퓨터의 수식 추구하지 컴퓨터는 반복 솔버 같은, 그것의 마이너스 최소되도록 θ 최대 수득 기울기 하강 방법을 사용하여 가능하다 후에.

대안 적으로, 선형 회귀의 내용과 일치 채용 SGD BGD가 도입되지.

다음 뉴턴 방법은, 즉 2 차 테일러 전개가 수식 θ의 변화량을 획득하기 위해 사용될 수있다 

필요한 F (x)의 최대 값이 0 인 유도체 대처하기위한 공식은 다음 식을 얻을 수있다 :

 

위의 호텔을 가지고 있으며 넣어, θj에서 배포를 얻을 수있다

 

장소 :

 

θ 완료 해결. 로지스틱 회귀 분류의 직선 조각을 얻기 위해 필요합니다.

1.2 알고리즘 흐름

(1) 즉, 훈련 데이터 세트는 우도 함수를 구하는 기존 데이터를 사용 :

 

(2) (0,0,0)과 같은 초기 값 θ을 설정, 또는 다른 어느 정도의 값을 설정하는 최적 값이 얻어 여부에 영향을 미칠 것이다

(3) 최종 반복 솔버의 θ의 값을 제공하는, 변화량이 θ가 커지는 후, 즉 반복을 중지 설정된 임계 값보다 작거나 업데이트되며, 다음과 같다 반복 수식 특정 화학식 2.1 참조 :

 

(4)와 시그 모이 드 함수, θ를 구함으로써 얻어진 클래스 예측은 데이터의이면에 수행 될 수있다.

 

1.3 고려 사항

(1) 반송 로지스틱 회귀 이름하지만하고있다뿐만 아니라 회귀 직선의 방정식을 구하는 확률 계산 로직에 의해, 분류 문제이지만, 그 특성을 보정하는 단계;

그것은 g (Z)을 만들기 때문에 시그 모이 드 함수를 사용하는 경우 (2), 이미 결정한 회귀 알고리즘은 이진 될 수 = P (Y = 1 | x)를, 그리고 1- g (z) = P (Y = 0 | X);

(3) 분류 로지스틱 회귀는 더 많은 단어가 여러 이항 연산, 다목적 분류된다 할, 원칙은 이진 분류를 할 항상.

추천

출처www.cnblogs.com/wenghsimu/p/11234978.html