[학습 노트] Xigua Book 기계 학습 2장: 모델 평가 및 선택과 통계적 가설 테스트의 기초

1. 평가방법

학습자의 일반화 오류를 평가하려면 훈련 세트가 아닌 테스트 세트를 사용하여 모델의 능력을 테스트해야 합니다. 이때 데이터 세트 D를 적절하게 처리하고 D로부터 훈련 세트 S와 테스트 세트 T를 얻습니다. 그뿐만 아니라 D에서는 서로 다른 모델의 결과를 비교하기 위해 검증 세트(Validation)가 필요한 경우도 있습니다.

1.1 홀드아웃

직접적으로 말하자면, 데이터 세트는 상호 배타적인 두 개의 세트로 나뉩니다. 예를 들어 데이터 세트는 37개 포인트로 나누어지며, 7개 포인트는 트레이닝 세트, 3개 포인트는 테스트 세트로 구성됩니다. 일반적으로 여러 개의 무작위 분할이 사용되며 실험 평가를 반복하고 평균값을 홀드아웃 방법의 결과로 취합니다. 다음과 같은 이유로 분할 비율을 기록하는 것이 중요합니다.

S가 너무 많다----T가 너무 적다------평가 결과가 정확하지 않을 수 있다
S가 너무 적다----T가 너무 많다------실제 모델과의 차이 진짜 모델이 너무 멋지네요.

1.2 교차 검증 방법(Cross-validation)

데이터 세트 D를 동일한 크기의 상호 배타적인 K개의 하위 세트로 나눕니다. 매번 K-1 부분 집합은 훈련 세트로 사용되고 나머지 하나는 테스트 세트로 사용됩니다. 이런 식으로 K 세트의 훈련 세트와 테스트 세트를 얻을 수 있으므로 k 세트의 훈련과 테스트를 수행할 수 있으며 최종 반환값도 k 세트의 테스트 결과의 평균이 됩니다.

총 m개의 표본이 있을 때(k=m) 이런 특별한 경우에 얻은 교차 검증 방법을 Leave-One-Out이라고 하며, Leave-One-Out 방법의 장점은 실제 평가된 모델이 다음과 매우 유사하다는 것입니다. 예상되는 평가 모델 유사성. 단점은 계산 오버헤드가 너무 높다는 것입니다.

1.3 부트스트래핑

위의 두 가지 방법에는 단점이 있습니다. 즉, 훈련 세트가 실제 데이터 세트 D보다 작고 우리가 원하는 것은 D에 의해 훈련된 모델입니다. 따라서 부트스트랩 방법은 이 문제를 매우 잘 해결합니다.m개의 샘플로 구성된 데이터 세트 D에서 매번