기계 학습 노트 - 기계 학습, 분류 및 성능 측정

기계 학습 분류

  • 지도 학습 : 분류, 회귀;
  • 자율 학습 : 차원 감소, 클러스터링
  • 강화 학습

데이터 집합

  • 집합 교육 : 분류 매개 변수를 설정하여 알고리즘을 훈련에 사용되는 모델을 분류 모델을 학습.
  • 검증 설정 : 훈련 데이터의 모델 트레이닝 세트의 복수의 검증 세트 및 모델의 기록의 정확성을 예측. 모델 매개 변수를 조정하는 데 사용되는 효과에 해당하는 최고의 모델 매개 변수를 선택. (비 필수)
  • 테스트 설정 : 성능 및 분류 모델에 대한 테스트 할 수있는 능력을.

지도 학습
새로운 데이터의 입력이 결과는이 함수에 기초하여 예측 될 수있을 때 주어진 훈련 데이터로부터는 학습 기능을 설정.
핵심은 분류와 회귀

  • 카테고리 : 출력은, 이산 변수이다 질적 출력된다.
  • 회귀 : 출력은 정량적 출력 연속 변수이다.

자율 학습
클러스터링 및 크기 감소

  • 어떤 라벨 데이터 입력, 데이터 타입은 알려지지 않은 샘플의 요구가 매우에 따른 샘플의 샘플 세트 사이의 유사도 것으로 나눌 수없는 클래스 사이의 차이를 최대화하는, 갭의 클래스가 최소화된다 .
  • 추정 된 확률 밀도 함수에 기초하여 직접법
  • 샘플들 사이의 유사도 측정 기반 클러스터링

강화 학습
도 강화 학습으로 알려진, 학습 강화 학습의 평가

  • 전략 최대 수익을 달성하기 위해 또는 특정 목표를 달성하기 위해 학습하여 상호 작용 환경에서 에이전트 문제를 설명하고 해결하는 데 사용됩니다.
  • 기계 중 하나는 패러다임과 방법론을 학습

강화 학습은 학습 정보 환경에 대한 액세스를 수신하여 이전에 주어진 데이터, 그 작업 (피드백)의 보상을 요구하고 모델 매개 변수를 업데이트하지 않습니다.

기계 학습 성능 메트릭

에러
모델 출력 진정한 값으로부터의 편차도, 손실 함수 보통 크기 오차를 측정하기 위해 정의.
훈련 세트 또는 교육 오류에 오류가 경험 오류라고 - 오류가 크기는 모델의 품질의 효과에 학습 데이터에 맞게 반영하는 경험
모델의 오류 알 수없는 샘플의 일반화의 오류라고하며, 측정 오차는 일반적으로 것입니다 훈련 모델을 측정 할 수있는 알 수없는 데이터를 예측하는 능력에 대한 일반화의 오류 - 근사치의 일반화의 오류로

오버 피팅 및 단순성과
그림 삽입 설명 여기
훈련 샘플 모델이 검증 데이터 세트 및 테스트 데이터에 집중 성능 저하의 결과로, 너무 뛰어난 동작 : 오버 피팅.
단순성과 : 교육 및 예측 성능 모델은 좋지 않았다

공통 평가 방법 :

  • 방법은 제쳐두고
    기존 데이터는 상호 배타적 인 두 부분으로 설정하고, 균일 한 분포의 데이터를 보장하기 위해, 테스트 세트 비가 1/3 ~ 1/5로 유지된다.

  • 교차 검증
    그림 삽입 설명 여기
    K 상호 배타적 인 부분으로 데이터 세트, 데이터의 각각의 세트는 임의의 테스트 세트를 선택하는 훈련 프로세스

  • 부트 스트랩
    데이터 D는 m 샘플, 여분의 샘플링 데이터 집합 D의 m 배를 포함하여 데이터를 구성하는 샘플 데이터는 트레이닝 세트로 D1는 D1을 설정는 테스트 세트로 D1 나타나지 않는다.
    확률 예제 D1이 나타나지 않는
    그림 삽입 설명 여기
    데이터 분포를 변경 바이어스 추정을 초래할 수 있으며, 상기 트레이닝 세트의 크기를 감소시키지 않고, 작은 데이터 세트에 적합한.

혼란 행렬 (오차 행렬)
을 중심으로하는 실 정보에 사용되는 분류 결과의 예는 비교
그림 삽입 설명 여기
예를 들어, 이진
진정한 (TP) 모델은 양의 시료가 양 예측
모델은 포지티브 네가티브 샘플을 예측 : 위양성 (FP)
위음성을 ( FN은) : 모델은 긍정적 인 샘플이 부정적 예측
사실 부정 (TN) : 모델 부정적인 부정적인 샘플을 예측

정확도 (accuray) 올바르게 예측 된 음극 케이스 / 총 수의 숫자, 즉 (TP + TN) / (TP + FN + TN + FP)
정확도 레이트 (정밀도) 양극 케이스 / 예상 정확한 예측의 실시 예 N 개의 총 개수 즉, TP / (TP + FP)
리콜 (회수) 양극 케이스의 양극 케이스의 수는 정확하게 예측되었다 / 실제 총 수, 즉 TP / (TP + FN)

점수-F를. : 정밀도와 리콜의 고조파 값을
그림 삽입 설명 여기

β=1时,该式称为F1-score或F1-measure,精确率和召回率都很重要,权重相同
β<1时,精确率更重要
β>1时,召回率更重要

F1-score:精确率和召回率的调和平均评估指标
그림 삽입 설명 여기

ROC曲线
그림 삽입 설명 여기
根据分类结果计算得到ROC空间中相应的点,连接这些点形成ROC曲线
靠近左上角的ROC曲线所代表的分类器准确性最高
真正率(TPR):预测为正的正样本数/正样本实际数,TPR=TP/(TP+FN)
假正率(FPR):预测为正的负样本数/负样本实际数,FPR=FP/(FP+TN)

AUC:ROC曲线下的面积
그림 삽입 설명 여기
AUC=1:100%完美识别正负类,不管阈值怎么设定都能得出完美预测。
0.5<AUC<1:优于随机预测。这个分类器妥善设定阈值的话,可能有预测价值。
AUC=0.5:跟随机猜测一样,模型无预测价值。
AUC<0.5:比随机预测还差,不存在AUC<0.5的情况

PR曲线(精确率对召回率的曲线)
在同一测试集,上面的曲线比下面的曲线好(绿线比红线好);
光滑曲线比不光滑曲线好;
그림 삽입 설명 여기

PR曲线与ROC曲线
相同点:采用TPR,用AUC 来衡量分类器效果
不同点:ROC曲线使用了FPR,PR曲线使用了精确率

평균 절대 오차
L1 놈 손실은
그림 삽입 설명 여기
제곱 오차를 의미
L2 놈 손실
그림 삽입 설명 여기
RMSE를
그림 삽입 설명 여기

분산 설명
데이터에 일반적으로 사용되는 수학적 모델 특정 편차에 양자화 변화에 의해 설명 될 수있다
그림 삽입 설명 여기

판정의 계수
변동 Y 회귀 관계 값이되는 전체 변동의 주 비율 설명했지만
그림 삽입 설명 여기
랜드 인덱스
주어진 구체적인 클래스 정보 C는, K는 클러스터링 결과, A가 C와 K가 동일한 종류의 원소의 개수이다 나타낸다고 가정 B는 K의 다른 클래스 수있는 모든 요소를 나타내고, C.
그림 삽입 설명 여기
RI의 값 범위 [0,1]

랜드 인덱스 조정
그림 삽입 설명 여기
범위 ARI [-1,1]

상호 정보를
얼마나 잘 두 데이터 분포를 측정하는 데 사용됩니다. U와 V는 N 개의 샘플 라벨의 분포를 가정한다.
그림 삽입 설명 여기
정규화 상호 정보
그림 삽입 설명 여기
조정 상호 정보
그림 삽입 설명 여기
프로파일 계수
한 샘플은,이 다른 시료의 종류, 평균 거리가 제공되고, B는 서로 다른 카테고리에 가장 가까운 샘플 평균 거리
그림 삽입 설명 여기

실제 클래스 정보를 알 수없는 적용

게시 39 개 원래 기사 · 원 찬양 한 · 전망 1232

추천

출처blog.csdn.net/qq_43839907/article/details/104235943