기계 학습 (1)의의 기본 개념

@ (기계 학습 (1) 기본 개념의)

기계 학습의 정의

궁극적으로 기존의 데이터 알고리즘 선택, 알고리즘과 데이터를 기반으로 구축 모델과에 따르면, 미래를 예측하고있다.

알고리즘의 기본 매개 변수

그림 삽입 설명 여기

  • 입력 : x∈χ (속성 값)
  • 출력 : y∈Y (대상)
  • 목적 함수를 구하기 (목표 함수)
    F : (화학식 이상)이 Y → X-
  • 입력 데이터 : D = {(X 1 ~ ~ ~ Y ~ 1), (2 ~ X ~ Y ~ 2 ~) ..... (N ~ X ~ Y ~ ~ N)}
  • 마지막 방정식은 특성을 갖는 것으로 가정된다 :
    G를 : X-하기 → Y (최종 식 얻어진 학습)

데이터의 알고리즘의 부동산

  • 피팅 : 주어진 데이터의 특성과 일치하는 알고리즘을 구축
    • X ^ (i)는 ^ x는 i 번째 샘플의 벡터이다
    • X ~ 난 ~ :의 값이 난 차원 벡터 X
  • 견고성 : 견고성, 내구성 견고한 시스템의 견고성이다 비정상 데이터가 존재하면, 알고리즘은 데이터에 맞는
  • Overfitting : 샘플 데이터의 특성과도 일치 알고리즘, 실제 생산을위한 기능 데이터를 수 없습니다 적합
  • 단순성과 : 알고리즘 샘플 데이터의 특성에 부합하지 않는

기계 학습 분류

지도 학습

  • 일부 알려진 또는 수학적 모델을 구축 할 수있는 학습 집합의 특성 중 일부를 샘플로, 다음 모델은,이 방법은지도 학습라고, 미지 시료를 예측하기 위해 설립 가장 일반적으로 사용되는 기계 학습이다 방법. 교육 모델 추론 중앙 기계 학습 작업에서 태그 데이터입니다.
    • 판별 모델 (모델 차별적) 직접 조건부 확률 P (Y | X) 모델링, 일반 모델 식별은 : 선형 회귀 분석, 결정 트리, 서포트 벡터 머신 SVM, 가장 가까운 이웃 신경망 케이;
    • 모델 식 (제너 모델) : 조인트 확률 분포 P (x, y)는 모델을 공통 수식 가지고 모델링된다 : 숨겨진 마르코프 모델 HMM, 나이브 베이 즈 모델 가우시안 혼합 모델을 GMM, LDA 등을;
    • 특징 :
      1. 더 보편적 인 모델 식, 더 직접적인 차별 모델은 더 목표.
      데이터 2. 어떻게 생식 모델 초점을 맞추고은 데이터 배포 모델을 찾고, 생성됩니다.
      3. 판별 모델은 분류 평면을 찾고, 데이터의 차이에 초점을 맞추고 있습니다.
      4. 차별적 모델의 모델 식에 의해 생성 될 수 있지만, 패턴 판별 모델 식에 의해 형성 될 수 없다.

자율 학습

  • 지도 학습에 비해 자율 학습 교육의 초점은 인간이 표시, 자율 학습 과정의 결과가 아닌, 데이터는 특정 모델을 학습 데이터의 내부 구조의 일부를 추론하는 것입니다, 확인되지 않습니다.
  • 배우거나 시도 자율 학습 데이터 일반적인 알고리즘 클러스터링에서 중요한 기능, 치수 감소, 텍스트 처리 (특징 추출) 등의 데이터를, 또는 추출 정보 뒤에 특징 추출 데이터입니다.
  • 자율 학습은 일반적으로 미가공 데이터 태그로부터 필요한 정보를 추출하기 위해 미리지도 학습 데이터 처리 기능으로서 사용된다.

반지도 학습

  • 표시된 샘플 소량의 훈련 및 분류에 대한 샘플을 레이블이 지정되지 않은 많은 문제를 사용하는 방법을 고려,지도 학습과 자율 학습의 조합이있다.
  • 배우거나 시도 자율 학습 데이터 일반적인 알고리즘 클러스터링에서 중요한 기능, 치수 감소, 텍스트 처리 (특징 추출) 등의 데이터를, 또는 추출 정보 뒤에 특징 추출 데이터입니다.
  • 자율 학습은 일반적으로 사전 감시 기능의 데이터 처리는 원시 데이터로부터 추출되는 학습에 필요한 태그 정보로서 사용

기계 학습 개발 과정

데이터 수집 및 저장

  • 출처 :
    • 사용자 데이터에 액세스
    • 비즈니스 데이터
    • 외부 타사 데이터
  • 데이터 저장 :
    • 데이터가 저장 될 필요가있다 : 원본 데이터는 데이터, 모델 결과를 전처리 한 후
    • 저장 시설 : MySQL은, HDFS, HBase를, SOLR, Elasticsearch, 카프카, 레디 스 등
  • 데이터 수집 방법 :
    • 수로 및 카프카
  • 실제로, 우리는 기계 학습 및 개발을위한 비즈니스 데이터를 사용할 수 있지만 다음과 같이 학습 과정에서, 어떤 비즈니스 데이터는, 당신은 개발, 공통 데이터 세트에 공개 된 데이터 집합을 사용할 수 없습니다 :
    • http://archive.ics.uci.edu/ml/datasets.html
    • https://aws.amazon.com/cn/public-datasets/
    • https://www.kaggle.com/competitions
    • http://www.kdnuggets.com/datasets/index.html
    • http://www.sogou.com/labs/resource/list_pingce.php
    • https://tianchi.aliyun.com/datalab/index.htm
    • http://www.pkbigdata.com/common/cmptIndex.html

데이터 전처리

  • 필요 초기 데이터 전처리는 기계 학습 모델을 표현하기에 적합한 형태로 변환 할 수있는 모델의 많은 유형이이 벡터 또는 수치 데이터로 이루어진 행렬로 표현된다.
    • (가) 수치 표현으로 부호화에 대응 분류 데이터 -dumy (일반적 방법 1-K의 사용).
    • 텍스트 데이터에서 유용한 데이터 (백있어서 일반적으로 사용되는 단어 또는 TF-IDF)를 추출.
    • 화상이나 음성 데이터 처리 (화소, 음향, 음성, 진폭 등 <푸리에 변환>).
    • 데이터의 종류에 수치 데이터는 세 세그먼트와 같은 변수의 값을 감소시킨다.
    • 이러한 대수 변환 등의 수치 데이터를 변환한다.
    • 표준화 기능의 정규화 보장하기 위해 동일 모델의 다른 입력 변수가 동일한 범위의 것이다.
    • 또는 기존 변수의 조합은 평균 수 (더미 변수을) 계속 시도와 같은 새로운 변환 기능을 생성합니다.

      특징 추출

      모델 건물

  • 모델 선택 : 특정 작업의 모델링 방법에 대한 최선의 선택 또는 특정 모델의 최적 매개 변수의 선택.

    모델 테스트 및 평가

  • 훈련 데이터 집합 모델 (알고리즘) 및 테스트 데이터 테스트 결과에 집중에서 실행, 데이터 모델의 반복적 인 수정이는 훈련 세트를 사용하여 모델을 구축, 교차 검증 (훈련 및 테스트 세트로 데이터라고 및 평가 모델의 테스트 세트를 사용하여) 개정안을 제안한다.

  • 일부 모델은 많은 선택 알고리즘의 실행으로, 그리고 결과를 비교합니다.

  • 일반적으로 테스트 모델은 다음과 같은 측면, 즉, 정확성 / 리콜 / 정확도 속도 / F 값을 비교합니다.

    • 샘플의 정확성 (정밀도) = 샘플 추출 / 총 수의 정확한 수.
    • 리콜 (회수) = 샘플의 정확한 수 양성 예 / 샘플의 양의 샘플 수 - 커버리지.
    • 정확한 비율 (정밀) = 정확한 양의 샘플 개수 / 샘플 수는 긍정적 인 예를 예측했다.
    • 정밀 F 값 = 리콜 2 / (리콜 정밀 +) (정확하고 리콜 즉 F 조화 평균 값).

      사용에 넣어 (모델 구축 및 통합)

  • 좋은 모델 구축, 데이터베이스에 저장된 훈련 모델은 모델 (일반적으로 좋은 모델 구축 매트릭스)를 사용하여 다른 응용 프로그램의 로딩을 용이하게합니다.
  • 모델 주기적으로해야 하나 월, 일주.

    반복적 최적화

  • 7 테스트 : 실제 생산 환경에 투입 한 번 모델은 성능 모니터링 모델은 매우 중요합니다, 종종 비즈니스 성능과 사용자 경험에 초점을 맞출 필요가 있으므로 때로는 A / B 테스트 (3 때 원래 시스템 및 처리 알고리즘 시험은 두 시험의 차이).
  • 모델 즉, 모델을 수정할 것이 주목되어야하고, 조작에 응답하여 상기 사용자의 피드백을 요구하는 필요한 데이터에 대한 요구 동작 전처리되도록 모델에 비정상 피드백.

추천

출처www.cnblogs.com/tankeyin/p/12113762.html