맵리 듀스 셔플의 메커니즘에

  지도 감소는 계산 프레임 워크입니다. 지도 기능은 모든 노드가 포함 된 데이터를 포함하는 실행 보내고, 실행의 수집, 여러 호스트와지도에 결과를 줄 몇 가지에 수집 된 여러 그룹, 몇 노드를 줄이는 기능에 따라 점의 수를 줄이기 위해 실행합니다.

 

  셔플 메커니즘 : 패킷 순서

 

맵리 듀스 구현 과정

  • 공정 맵 생각 슬라이스의 수에 기초하여, 슬라이스 공정에 대응하는 맵 상대 블록 크기면에서 타일 크기는 슬라이스에 대응하는 블록의 작은 블록의 개수는 슬라이스 파일 오프셋들의 범위이다.
  • 프로세스 메모리에 제 프로세스를 매핑 전달 분할 구간 후에 계산 좋은 점, 전체 버퍼마다, 출력 버퍼의 내용이 파일로 유출 로컬 그룹 사이의 각각의 파일 데이터가 정렬된다.
  • 상기 입력 데이터가 처리되는 경우, 현재의 맵 파일 플로우 프로세스 (그룹 번호로 정렬기를 들고 합하고) 크게 문서를 병합 할 수있다.
  • 프로세스가 동시에 어떤 맵을 완벽하게 요약하면, 프로세스가 큰 파일 수집을 시작 감소 각 개별지도 큰 파일에 대해 동일한 그룹 번호 데이터 수집에서 일종의 병합합니다.
  • 좋은 방법의 최종 출력은 양호한 클래스로 분류 된 데이터의 서브 세트를 감소시킨다.
  • MR은 데이터의 양이 캐시 크기를 초과 할 수 있습니다에 의한 자주 MR 자주 스파크보다, 디스크 파일에 기록 될 수 있습니다, 천천히,하지만 때문에 디스크와의 상호 작용의 폭풍, 데이터를 처리 할 수있는 MR 크기 큰 비 오프라인 실시간 계산을 대체하기 어렵다.

셔플 메커니즘

  1. 원사 ResourceManager에가 계산합니다 후 자원 할당 과정은 노드 MRAppMaster NodeManager 노드, 여기에서 셔플 메커니즘 맵리 듀스를 시작합니다.
  2. 슬라이스의 수를 결정하는 프로세스 MRAppMaster 맵 노드 수 및 작업이 컴퓨터에서 데이터 처리를 분리하고, 메모리 버퍼가 꽉 찼을 때 결과는 (호스트의 패킷 버퍼 메모리 맵에 저장된지도 태스크에 노드를 초기화 자동 디스크로 유출되면, 구성은 하나 개의 큰 파일로 결합 작은 파일, 병합 프로세스가 큰 파일이 아직 그 후, 구성 파일)에 따라 작은 파일, 버퍼 및 로컬 순서 작은 복수의 파일을 생성 할 수있다 정렬 유지
  3. 작업을 처리 할지도 작업이는 MRAppMaster에 결과를보고, 완료, 작업 상태 보고서 함께, 결과 파일 위치, 그룹 정보
  4. MRAppMaster 프로세스는 각각의 그룹 정보를 취할 수있는 데이터가있는 데이터 파일, 호스트 등 감소에 단지 다른 보조금의 수를 줄일 수있는 동안, 노드에 대한 몇 가지 프로세스를 시작합니다 작업을 줄이고 모든지도 작업 결과로부터 피드백을 받는다
  5. 그 그룹에 대응하는 데이터만을 가지고, 물론 데이터를 다운로드 대상 위치를 줄일 수있는 정보를 획득 한 후, 데이터의 다른 그룹은 다른 감소로 제거하여
  6. 테이크과 순서를 유지하기 위해 맵의 각에서 동일한 데이터 집합을 감소 결합
  7. 논리의 결합 된 세트를 감소
  8. 출력, 작업 완료
  9. ResourceManager에 취소에 MRAppMaster, 작업 완전히 이상, 사 인수

 

추천

출처www.cnblogs.com/fusiji/p/11409919.html