기계 학습 | 알고리즘 요약

머리말

코드 예제를 동반하는, 이해하기 쉽게 시작하는 동안이 기계 학습 알고리즘 검토의 시리즈와는 명확 정교한 알고리즘 이론의 목적을 요약합니다.

디렉토리

   선형 회귀
   K-수단
  기계 학습 알고리즘 요약
 
이 장에서는 상위 10 알고리즘을 요약하고 파이썬과 R 고전적인 알고리즘 구현 논리와 함께 제공됩니다.

A, C4.5

C4.5는, 의사 결정 트리 분류 알고리즘 기계 학습 알고리즘,
그것은 의사 결정 트리 핵심 알고리즘 (사실, 나무처럼 의사 결정을하고 조직 간의 의사 결정 트리 노드, 거꾸로 트리입니다)입니다
ID3의 개선 알고리즘 그래서 기본적으로 우리는 그것의 절반은 의사 결정 트리 생성 방법을 구성 할 수 있습니다 알고 있습니다.
모든 의사 결정 트리 생성 방법은 실제로 좋은 기능이며 현재 노드의 분류 조건으로 분리 점을 선택합니다.

로, ID3 개선에 비해 C4.5은 다음과 같습니다 :

  • 1. 정보 속성 이득 비율이 선택된다. 상기 선택된 서브 트리 정보 이득 ID3 특성, 정보, ID3하여 엔트로피를 정의하는 방법에는 여러 가지가있을 수있다 C4.5 동안, 엔트로피, 즉 변경 (엔트로피 엔트로피 순도 기준 측정하지이다) 정보 이득 비율을 사용한다. 다른 점이다 한 정보 게인 정보의 이득이다 . 일반적으로 속도가 두 주자가있는 거의 같은 역할의 차이이기 때문에, 밸런싱 촬영 시작점은 10 초 후 20m / s 인 10m / s 사람이다 타인 속도에서 이 1m / s의, 그 후에의 1 초 2m / s입니다. 차이가 있다면 속도의 사용 증가 속도는 가속도가 동일한 두 명이다 측정하는 (가속도, 즉 1m / s ^ 2이다) 경우 매우 견고 둘 사이의 큰 간격에 카운트. ID3 정보 이득 부족이 속성을 선택 속성 경우에 따라서 C4.5는 바이어스 값과 더 많은 선택을 극복.
  • 의사 결정 트리를 구성 할 때 건설 과정 2. 나무 가지 치기는 달리 쉽게 overfitting으로 이어질 최선을 고려하지 않고, 그 노드의 여러 요소 걸려.
  • 3. 또한 비 분리 된 데이터를 처리 할 수 ​​있습니다.
  • 이 공정은 불완전한 데이터에 수행 될 수있다.

둘째, K 용 수단 알고리즘 K-수단 알고리즘, 즉

알고리즘은 클러스터링 알고리즘이며, k는-수단 그들의 특성에 따라 (K <N) (K)로 나누어 상기 N 개의 오브젝트 . 그들은 데이터 센터의 자연 클러스터를 찾기 위해 노력하고 있기 때문에, 혼합 기대 - 극대화 알고리즘 (상위 10 알고리즘의 제 5 조)와 정규 분포의 거래와 매우 유사합니다.
그것은 공간 벡터의 개체 속성 것으로 가정하고, 목표는 각 그룹의 내부는 최소의 합이 평균 제곱 오차 것이 있습니다.

三, 지원 벡터 기계

SVM, 영어 서포트 벡터 머신으로, (종이는 일반적으로 SVM라고 함) SV 기계라고도합니다.

널리 통계적 분류 및 회귀 분석에 사용되는지도 학습의 방법이다.
SVM 벡터는 고차원 공간이 공간에서의 최대 간격 초평면의 확립에 대응한다 . 초평면 데이터 헤어 두 초평면은 서로 평행 가지며, 두 평행 초평면 이격 거리를 최대화하는 초평면. 분류의 총 오차는 작아 병렬 초평면 간의 거리 또는 갭보다 큰 것으로한다.

훌륭한 가이드의 CJC Burges는 "패턴 인식 SVM 가이드를." 반 데르 월트와 버나드 및 기타 지원 벡터 머신 분류는 비교 하였다.

四 상기 선험적 알고리즘

선험적 알고리즘은 가장 영향력이다 부울 연관이 빈번 항목 설정 규칙 마이닝 알고리즘들. 중심 주파수는 두 단계 재귀 알고리즘 사상에 기초하여 설정된다. 연관 규칙은 분류 일차원, 단일 불리언 연관 규칙에 속한다. 여기서, 모든 지원 주파수 세트라고 자주 불리는 itemsets 최소 지원 itemsets보다 크다 .

다섯째, 최대 예상 (EM) 알고리즘

통계적 계산에서의 최대 기대 (EM, 기대치 - 최대화) 알고리즘은 확률 모델이 관측 숨겨진 변수 (잠재 수 변수)에 의존하는 확률 (확률) 모델에서 최대 우도 추정 알고리즘의 파라미터를 찾는 것이다.

예상 최대 자주 (데이터 클러스터링) 필드를 수집하는 컴퓨터 비전, 기계 학습 및 데이터에 사용됩니다.

六, 페이지 랭크 (PageRank)

구글 페이지 랭크 (PageRank) 알고리즘의 중요한 부분입니다. 년 9 월 2001, 특허는 구글의 공동 창업자 래리 • 페이지 (래리 페이지 (Larry Page))이며, 미국 특허를 부여했다. 따라서 페이지가 페이지를 의미에서, 페이지 랭크 (PageRank)는 아니지만, 브리타니 나이트로,이 방법은 등급 페이지를 기반으로 명명 된. 개수 및 위치의 외부 및 내부 링크의 품질에 기초하여 랭크, 위치 값을 측정한다. 페이지 랭크 (PageRank) 뒤에 개념이 페이지에 각 링크 페이지에 대한 투표 점이다, 더 연결, 다른 사이트보다 투표 것을 의미한다.

많은 사람들이 자신의 웹 사이트 및 웹 사이트를 링크하고자하는 방법의 측정 - 이것은 소위 "연결 인기"입니다. 학술 논문 인용 빈도에서 가져온 페이지 랭크 (PageRank) 개념 - 다른 사람의 수는이 논문의 일반적인 심판에게 더 높은 권위를 인용 이상 즉.

세븐, 에이다 부스트

에이다 부스트 핵심 아이디어는 다른 훈련 동일 후 함께 이러한 약한 분류 기준이 강한 최종 분류 (강한 분류기)를 구성하는 분류기 (약한 분류 자)를 훈련 설정 반복 알고리즘이다. 알고리즘 자체는 각각의 샘플의 무게를 결정하기 위해 각 샘플에 대해 설정된 모든 트레이닝 세션뿐만 아니라, 이전의 전반적인 분류의 정밀도가 올바른지 여부에 따라, 상기 데이터 분배를 변경함으로써 달성 분류된다. 하위 분류 교육에 새 데이터 세트의 수정 된 가중치는 각 훈련은 마지막으로 분류가 최종 결정 분류로 통합 얻을 것이다.

八, KNN : K 최근 접 이웃 분류

K-가장 가까운 이웃 (K-가장 가까운 이웃, KNN) 분류 알고리즘은, 이론에서 더 성숙한 접근, 가장 간단한 기계 학습 알고리즘 중 하나입니다. KNN 방법 생각 : 특정 장르에 속하는 샘플의 다수의 특징과 가장 유사한 공간 K (즉, 가장 가까운 형상 공간 K)의 샘플은 샘플이이 범주에있다 경우 .

九, 나이브 베이 즈

분류 모델 중 두 가지 가장 널리 사용되는 분류 모델은 의사 결정 트리 모델 (의사 결정 트리 모델)과 나이브 베이 즈 모델 (나이브 베이지안 모델, NBC) . 나이브 베이 즈 모델은 견고한 수학적 기초와 안정적인 분류 효율이 고전적인 수학 이론에서 유래. 한편, NBC가없는 데이터에 덜 민감한 모델 파라미터를 추정하는데 필요한 알고리즘은 비교적 간단하다. 이론적 NBC 다른 분류 모델은 작은 에러 레이트를 갖는 비교. 모델이 NBC는 독립적 인 특성이 있습니다 가정하기 때문에 그러나 사실은 이러한 가정이 제대로 NBC가 어느 정도 가져 분류 모델을 제공하는 설정되지 않은 종종 연습에, 항상 그런 것은 아니다. 속성 이상의 속성 많은 수의 상관 관계는 분류 모델의 효율은 NBC의 의사 결정 트리 모델을 비교합니다. 그리고 때 재산 관련성이 적은, 가장 좋은 NBC 성능 모델.

열, 쇼핑 카트에 담기 : 분류 및 회귀 나무

쇼핑 카트에 담기, 분류 및 회귀 나무. 분류 트리에서 다음 두 가지 핵심 아이디어는 다음과 같습니다 : 첫 번째 재귀 인수 공간 분할의 생각이다, 두 번째 아이디어는 검증 데이터와 가지 치기하는 것입니다 .

 

다음은 알고리즘의 요약을 찾기 위해 온라인에 게시

 

참조 :

http://www.csuldw.com/2015/03/18/2015-03-18-machine-learning-top10-algorithms/

 

 

추천

출처www.cnblogs.com/geo-will/p/11203156.html