내용의 기초를 맵리 듀스

MapReduce는 : 분산 컴퓨팅 프레임 워크는 데이터 처리의 다량을 분해하는데 사용

, 데이터 세트를 지정하는 결과로, 중간 키를 생성하는 동작의 단계에서 개별 요소 매핑은 최종 결과를 얻기 위해, 중간 결과의 동일한 스테이지 키 법령 모든 값을 감소시킨다.

장점 :

1) 프로그램의 용이성 : 인터페이스의 개수의 간단한 구현

2) 확장 성을 계산할 때 자원의 부족, 당신은 자신의 컴퓨터를 증가시켜 컴퓨팅 파워를 확장 할 수 있습니다 때

3) 높은 탄력성 : 컴퓨터에 연결하면, 컴퓨터의 컴퓨팅 작업은 서로 노드로 전송됩니다

단점 : 실시간으로 통계 처리 (유량 계산)에 적합하지가 MapReduce의 데이터 처리는 정적이다. 예를 들어 과거 데이터를 처리 (마다 연산 결과가 디스크이기 때문에, 프로세스는 다시 제 디스크를 읽을 경우)

우리는 먼저 다음과 같은 범주를 알아 갈 수 :

1) 매퍼 : 이것은 네 개의 파라미터, 즉,지도 기능 키 입력시, 입력 값, 출력 키 출력값이 있는데, 일반적인 유형이다. 일반 타입 파라미터가 참조 형식 프리미티브 타입 할 수 없다 (예를 들어, INT, 더블, 숯)의 출력 형태 (키 - 값 쌍)

2) 셔플 : 단계를 줄이기 위해 데이터를 마이그레이션의지도.

3) :( 결합 통계의 맵 : 부분 통계 데이터 최소화 ) 마이그레이션.

4) 파티션 설정 : 파티션 프로세서 그는 키의 해시 값을 모듈로 (3), 감속에 0의 제 1 값은 값 1을 얻으면 번째로 감속, 경우에 제 2 값 세 감속기에 관계없이 각 매퍼 키를 통해 배달 한 동일한 키가 같은 감속기를 입력합니다으로의.

5) 감소 : 세계적으로 허용 통계 통계는지도를 각각 실시한 통계에 따른 키 값을 모두 인계.

맵리 듀스의 기본 원리

 

1) 맵 : 링 버퍼로 데이터를 판독 (100m)을

80 %, 파일이 버퍼가 정렬, 분할 될 것이다 디스크에 기록되어있는 디스크 버퍼에 전달됩니다 읽기, COMBIN이 오버플로 파일을 생성합니다 정렬 오버 플로우 파일을 분할되며,이 파일은 최종 통계 것 정렬 파티션이 빼앗아 와서 기다릴 줄일

2) 감소 : 파일 맵에 계산 된 해시 값에 따라, 병합하고, 병합 정렬 K / V의 내부에 따라 수행하고 키에 따라 그룹화.

추천

출처www.cnblogs.com/tudousiya/p/11241556.html