지도 감소는 계산 프레임 워크입니다. 지도 기능은 모든 노드가 포함 된 데이터를 포함하는 실행 보내고, 실행의 수집, 여러 호스트와지도에 결과를 줄 몇 가지에 수집 된 여러 그룹, 몇 노드를 줄이는 기능에 따라 점의 수를 줄이기 위해 실행합니다.
셔플 메커니즘 : 패킷 순서
맵리 듀스 구현 과정
- 공정 맵 생각 슬라이스의 수에 기초하여, 슬라이스 공정에 대응하는 맵 상대 블록 크기면에서 타일 크기는 슬라이스에 대응하는 블록의 작은 블록의 개수는 슬라이스 파일 오프셋들의 범위이다.
- 프로세스 메모리에 제 프로세스를 매핑 전달 분할 구간 후에 계산 좋은 점, 전체 버퍼마다, 출력 버퍼의 내용이 파일로 유출 로컬 그룹 사이의 각각의 파일 데이터가 정렬된다.
- 상기 입력 데이터가 처리되는 경우, 현재의 맵 파일 플로우 프로세스 (그룹 번호로 정렬기를 들고 합하고) 크게 문서를 병합 할 수있다.
- 프로세스가 동시에 어떤 맵을 완벽하게 요약하면, 프로세스가 큰 파일 수집을 시작 감소 각 개별지도 큰 파일에 대해 동일한 그룹 번호 데이터 수집에서 일종의 병합합니다.
- 좋은 방법의 최종 출력은 양호한 클래스로 분류 된 데이터의 서브 세트를 감소시킨다.
- MR은 데이터의 양이 캐시 크기를 초과 할 수 있습니다에 의한 자주 MR 자주 스파크보다, 디스크 파일에 기록 될 수 있습니다, 천천히,하지만 때문에 디스크와의 상호 작용의 폭풍, 데이터를 처리 할 수있는 MR 크기 큰 비 오프라인 실시간 계산을 대체하기 어렵다.
셔플 메커니즘
- 원사 ResourceManager에가 계산합니다 후 자원 할당 과정은 노드 MRAppMaster NodeManager 노드, 여기에서 셔플 메커니즘 맵리 듀스를 시작합니다.
- 슬라이스의 수를 결정하는 프로세스 MRAppMaster 맵 노드 수 및 작업이 컴퓨터에서 데이터 처리를 분리하고, 메모리 버퍼가 꽉 찼을 때 결과는 (호스트의 패킷 버퍼 메모리 맵에 저장된지도 태스크에 노드를 초기화 자동 디스크로 유출되면, 구성은 하나 개의 큰 파일로 결합 작은 파일, 병합 프로세스가 큰 파일이 아직 그 후, 구성 파일)에 따라 작은 파일, 버퍼 및 로컬 순서 작은 복수의 파일을 생성 할 수있다 정렬 유지
- 작업을 처리 할지도 작업이는 MRAppMaster에 결과를보고, 완료, 작업 상태 보고서 함께, 결과 파일 위치, 그룹 정보
- MRAppMaster 프로세스는 각각의 그룹 정보를 취할 수있는 데이터가있는 데이터 파일, 호스트 등 감소에 단지 다른 보조금의 수를 줄일 수있는 동안, 노드에 대한 몇 가지 프로세스를 시작합니다 작업을 줄이고 모든지도 작업 결과로부터 피드백을 받는다
- 그 그룹에 대응하는 데이터만을 가지고, 물론 데이터를 다운로드 대상 위치를 줄일 수있는 정보를 획득 한 후, 데이터의 다른 그룹은 다른 감소로 제거하여
- 테이크과 순서를 유지하기 위해 맵의 각에서 동일한 데이터 집합을 감소 결합
- 논리의 결합 된 세트를 감소
- 출력, 작업 완료
- ResourceManager에 취소에 MRAppMaster, 작업 완전히 이상, 사 인수