"기계 학습"수박이 책은 제 2 장 연습

운동

  • \ (2.1 \) 데이터 세트로서, (\ 1,000) \ 샘플 (\ 500 \) 포지티브 예로서는, (\ 500 \) 이의 예로서, 나눌 수를 \ (70 \ % \) 의 트레이닝 세트 및 \ (30 \ % \) 옆으로 여러 가지가 총 분할 견적 평가 방법에있어서, 테스트 용 샘플 세트.

  분할은 분할 방식으로 많은 후 수가 양과 음 예되도록하면 \ (\ N-) 갖는다는
n \ [{정렬}을 시작 \ & = C ^ {500 \ times35 \ %} _ {500} \ 시간 {500 C_을 } ^ {500 \ 시간 35 \
{] \} 배향을 %} = \\ 및 (C ^ {175} _ {500}) ^ {2} \ 단부   가 있는지 고려하지 않고
\ [N = C ^ {500 \ 시간 70 \ %} _ { 500} = C ^ {350} _ {500} \]


  • (\ 230 \) 데이터 세트로서, (\ 100 \) 각 반 양극과 음극의 경우는, 모델 생성 학습 알고리즘은 새로운 샘플 예측이 있다고 가정하며, 샘플하는 트레이닝 샘플 이상의 카테고리의 개수 (트레이닝 샘플의 수는 같다 테스트에 의해 주어진 임의의 추측) (10 \) \ 각각 교차 검증 방법으로서, 한 쌍의 접어 왼쪽 에러율 평가 결과가 얻어.

   \ (10 \) 교차 검증 배, 우리가 분할 임의 판단하고 대칭 각 서브셋 긍정적 예 확률 인 검색 결과 \ (\ FRAC. 1} {2} {\) 도 반례 동일한 테스트 세트가 임의의 예측 된 예측, 즉 에러 레이트에 대응하므로 \ (50 \ % \) .
  그리고 어떤 항상 예측없이 하나 두거나 양성 사례들의 세트를 선택하거나, 이의 일례를 선택 테스트 세트의 결과와는 대조적으로, 그 정확한 비율입니다 \ (0 \ % \) .
  이것은 우리가 교차 검증보다 '더 나은'더 필요는 없다를 떠나 알 수 있습니다. 선택은 여러 부분 집합으로 구분되는 특정 상황에 따라 달라집니다 ( 즉 폴드 교차 검증두고 온 및 교차 검증 단지 특별한 경우, 즉, 샘플 수는 서브 세트의 수, 하나 개의 샘플을 각각 포함하는 서브 세트)로 동일한 여러.


  • (\ 230 \) 학습자 경우 \ (A \) \ (FL \) 학습자보다 값 \ (B \) 높은 분석 \ (A \) \ (BEP \) 값보다 \ (B \) 고.

  \ (F1 \) 값과 \ (BEP \) 와 반드시 연결되지 않은, 그것은 카운터 - 예를 쉽게 찾을 수 있습니다.


  • \ (2.4 \) 참 양성 비율 (설명 \ (TPR \) ), 위양성의 경우 속도 ( \합니다 (FPR \) ) 및 정밀도 ( \ (P를 \) , 리콜 () \ (R & LT \) ) 사이에 연결합니다.


\ (2.1 \) 혼동 행렬 분류 결과

결과는 예측
실제 상황을
성신 반례
성신 \ (TP \) (실제 사례) \ (FN \) (위음성 예)
반례 \ (FP \) (위양성의 경우) \ (TN \) (위음성 예)

则有
\ [\ 시작 {} 배향 TPR = \ {TP FRAC} {TP + TN} \\ FPR = \ {FP FRAC} {FP FN + P = \\} \ {TP FRAC} {TP + FP} \ \ R = \ {TP FRAC} {TP + FN} \ {단부 정렬} \]


  • (\ 250 \) (식 입증 ) \ (\ 2.22 ).

\ [{정렬} \ 시작 \ = ell_ {순위} \ FRAC를 {1} {m ^ + m ^ -} \ 합 _ {\ boldsymbol {X} ^ + \ D에 ^ +} \ 합 _ {\ boldsymbol {X} ^ - \ D ^로 -} \ 빅 (\ mathbb {I} \ 큰 (F (\ boldsymbol {X ^ +}) <F (\ boldsymbol {X ^ -}) \ 큰) + \ FRAC {1} { 2} \ mathbb {의 I} \ 빅 (F (\ boldsymbol {X ^ +}) = F (\ boldsymbol {X ^ -}) \ 빅) \ 빅) \ 종료 {정렬} \ 태그 {2.21} \]
\ [AUC = 1 - \ ell_ {
순위} \ 태그 {2.22} \]   사실, 만약 unstriping \ ((2.21) \) 가 찾는 것을 알 수있다 (\ 민국 \) 곡선의 각 세그먼트의 우측의 영역 . \ (\ FRAC {. 1} {m ^ + m ^ -} \) 요청이 직사각형의 단위 면적이다 \ (\ SUM \ 제한 _ \ mathbb {상기 I {\ boldsymbol {X} ^ - - \ D ^에서} } \ 큰 (F (\ boldsymbol {X ^ -}) <F (\ boldsymbol {X ^ -}) \ 큰) \) 추구가 남아있는 얼마나 많은 장치 직사각형 \ (\ SUM \ 제한 _ {\ boldsymbol { X} ^ + \ D에 ^ +} \) 인 각각의 세그먼트를 합산 한 상술 한 \ (\ FRAC {1} { 2} \ mathbb {I} \ 큰 (F (\ boldsymbol {X ^ +} ) = F (\ boldsymbol {X ^ -}) \ 큰) \) 고려 슬래시 결과 (긍정적 예와 동일한 분류 확률 이의 예) 복용.


추천

출처www.cnblogs.com/cloud--/p/12122258.html