모델의 평가 및 선택 (1)

모델 평가 및 선택

오버 피팅 오류에 대한 경험

(1) 에러 레이트는 : 샘플 수는 시료의 수의 비율에 대한 계정을 잘못 분류

정확도 : 1 \ (- \) 오류율

(2) 에러 : 실제 출력 샘플 학습자의 실제 값 사이의 차이

훈련 오류 및 일반화의 오류 오류 두 가지 종류가 있습니다. 오류를 훈련하는 것은 경험적 오류로 알려진 트레이닝 세트의 오류 학습을 말한다 일반화의 오류가 새로운 샘플에서 오류를 의미합니다.

(단, 교육 샘플, 분류 정확도도 100 %, 반드시 그 학습이 매우 좋은 의미하지 않는다. 우리는 일반화 학습자의 작은 오류가 희망)

오버 피팅 (3) : 첫 번째 2시 괄호 안에 내용을 수행하기 위해, 우리는 학습자는 가능한 한 작게 일반화의 오류를하는 새로운 샘플을 잘 수행하고, 학습자를 얻을 수 있도록 노력하겠습니다. 이러한 이유로, 우리는 잠재적으로 보편적 인 법률에 대한 샘플의 트레이닝 세트에서 가능한 한 많이 배우려고한다. 그러나, 학습 훈련 샘플은, 종종 모든 잠재적 샘플 자연에 대한 것 훈련 샘플로 특성을 소유 할 수 너무 잘 배울 수있다,이 오버 피팅 현상이다.

해당 넘어서 끼는 현상은 단순성과 현상이다. 단순성과 현상은 아직 배울 수있는 교육 샘플의 일반적인 성격에 학습자를 말합니다.

예를 들어, 학습자 잎, 잎이 잘못하지 않은, 다음 학습 톱니 대부분의 훈련 세트가 가장자리에 톱니가없는 잎에 가능성이있는 경우 잎 가장자리는,이 오버 피팅 성능이 있기 때문입니다 여부를 확인하는 방법 학습자 잘못된 모든 잎은 가장자리의 계단이있다. 학습자가 배울 수있는 학습 집합의 끝 부분에 대한 충분한이 아닌 경우 반면에, 그것은 잎이 녹색이기 때문에, 나무는 녹색, 더 이상의 학습은 잎의 특성을 배울 수없고, 잎 등의 가능성이 나무 인 이 현상을 단순성과됩니다.

(그리고 너무 만 완화 할 수있다, 당신은 피할 수없는, 맞는 그러나, 덜 맞는 개선 된 학습 방법을 통해 극복 될 수 있다는 점을 지적 할 필요가있다)

교육 및 테스트 세트의 여러 가지 방법을 선택합니다

소개 : 학습자 일반화 오류의 평가를 위해 실험적으로 테스트 할 수있다. 그래서, 트레이닝 세트에 추가하여, 테스트 세트는 훈련의 완료 후, 테스트 세트 필요가 일반화 오류 근사치로 테스트 세트에 다음 오류를 새로운 샘플이 결정 배우고, 할 수있는 능력을 테스트하기 위해 필요합니다. 그러나 우리는 우리가 데이터의 집합입니다 가지고 문제에 직면하게 될 것이다 = D \ ({(X_1, Y_1), (X_2, y_2) \ cdots (x_m, Y_M)} \) . 훈련 세트와 테스트 세트 T. S를, 어떤 기술을 가진 데이터 세트를 분할받을 필요가있다

1. 방법 휴가 : D 직접 데이터 세트 S로서 트레이닝 세트, 테스트 세트 T와 다른, D는 S가 T 세 가지의 관계를 만족해야 두 개의 상호 배타적 세트들로 분할되어있다 :

\ (시작 \ {}의 경우 D = S \ 컵 T \\ S \ 캡 T = \ varnothing \ {단부 경우} \)

모델이 훈련 집합 S에 훈련 후, T-시험은 추정 일반화의 오류로 그 오류를 평가하기

2. 교차 검증 : 유사한 크기 K의 이산 세트에 첫 번째 데이터 세트 D, 즉 \ (D = d_1의 파라미터 \ 컵 d_1의 파라미터 \ 컵 \ cdots \ 컵 D_k \) I의 \ (\ NE \) 이 J \ (D_i \ 캡 D_J = \ varnothing \) 따라서 테스트 세트의 나머지의 부분 집합으로 K-1 훈련 세트로 하위 집합, 세트, 각, 그래서 당신은 훈련의 K 세트를 얻을 수 / 테스트 세트, 궁극적으로 K-차 교육 및 테스트,은 K 검사 결과의 평균 반환합니다.

3. 자기 방법도 공지 부트 스트랩 방법 : 각 D에서 랜덤 : 직접적인 샘플링 방법은 m 데이터 샘플 D의 소정의 세트를 포함하는 셀프 서비스에 기초하여, 우리는 데이터를 특정 관행이 '가 D를 샘플링 세트 생성 시료의 선택에서, 'D로 복사하고, 초기 데이터 세트 D로 샘플 백은 다음 샘플은 여전히 ​​샘플링으로 수행되도록,이 절차는 m 회 반복 될 때, 우리는 포함 얻을 데이터 샘플은 m 'D 세트.

물론, 또한 번 이상 D '가 나타납니다에서 샘플의 일부지만 표시되지 않습니다의 일부가 될 것입니다. 샘플이 아니지만 시료 확률로 촬영 \ (1- \ FRAC {1} {m} \) 확률 m 샘플이없는 항상이다 취해야 할 \ ((1- \ FRAC는 {1 } {m}) ^ m \) .

\ [\ lim_ {m \에 \ infty} (1- \ FRAC는 {1} {m}는) ^ m = \ FRAC는 {1} {E}를 \ 0.368 =]

즉, 데이터 세트 D는 샘플의 36.8에 대한 %가에서 D '에 표시되지 않는 큰만큼이 때. 따라서, 실제 사용 평가 m 트레이닝 샘플의 원하는 모델 평가 모델, 우리는 여전히 데이터의 총량의 약 1/3이 우리는 D가 테스트 세트로 '트레이닝 세트, D-D로 사용되는'수 있도록 이 테스트 집합으로 데이터의 트레이닝 세트에 나타나지 않았다.

파라미터 조정에 대해

다른 모델 매개 변수, 일반적으로 많은 수의, 기계 학습은 일반적으로 두 가지 유형의 매개 변수, 알고리즘 파라미터의 클래스 종종 미만 10 이상 이러한 유형의 매개 변수의 수를 포함한다. 알고리즘 파라미터 모델 파라미터없이, 일부가 평가 방법에 기초를 복수의 모델을 생성 한 후 선택된다 알고리즘 파라미터 두 종류의 통상적 파라미터 후보 값 수동 설정 모델의 다수에 의해 생성 된 바와 장소는 동일하지 않은, 모델 파라미터는 학습에 의해 후보 모델의 복수를 생성하는 것입니다.

다른 구성 파라미터 모델의 성능은 종종 따라서 적절한 학습 알고리즘의 선택에 부가하여, 모델의 평가 및 선택의 시간을, 그 차이에 의해 학습하고, 또한 알고리즘의 파라미터가 설정되어있는 학습이 파라미터 조정이다.

개인 요약

마무리는 주로, 결과 모델의 품질에 대한 기준을 결정 후속 자세한 내용을 구성 할 수있는 학습 알고리즘을 기반으로합니다. 또한, 상기 선택된 트레이닝 세트 일부 방법은 휴가와 교차 확인 방법과 다소 유사한 방법 및 수학적 통계 샘플링 트레이닝 세트 및 테스트 세트를 분할하도록 기존의 데이터 세트를 사용하여 알아 인 고려 대표적인 샘플을 채취하고, 따라서 에러가 차분 데이터 카테고리 분산 소개 한 이후 성층 샘플링 방법을 줄이기 위해해야하며, 다른 하나는 상기 여러 실험을 평균 프로세스에 의해 감소 ​​될 수있는 오차이다. 모두 모두, 근접 수학 통계의 일부입니다.

추천

출처www.cnblogs.com/my-python-learning/p/11874726.html