shufflue의 맵리 듀스 과정

 A, 지도 단계 :
  . 공격 태도를 보여준 후 파일은 각각의 조각은 MapTask에 해당

  MapTask에서 기본 행 판독 B., 각각의 행이 판독되고,지도 메소드를 호출

  C.지도 방법의 구현 (결과 이미 파티션 정보를 포함하는) 자신의 버퍼 기록 MapTask 될 것이다. 참고 MapTask하는 버퍼를 반송 각
  버퍼에 데이터가 버퍼에 데이터가 (파티션)으로 분할 할 때, 정렬을 D (정렬) (확장자 : 버퍼 SortingUse 정렬 알고리즘 그것은) 빠른 일종이다. 결합 클래스 (겸용)가 지정되는 경우, 데이터는 결합을 수행
  E. 버퍼 메모리에 유지하고, 디폴트는 100M이다
  버퍼가 사용될 때, 버퍼는 특정 조건 (언더 기입 임계 디폴트 0.8, 즉 도달하면 F.은 ) 유출 기록을 갖 시간 후에 80 %, 데이터는 MapTask 디스크 오버 플로우 기록 파일을 생성하는 현재의 버퍼 오버플로 (유출)을 작성한다. 후속 결과는 버퍼에 기록 할 것입니다. 각 오버 플로우는 새로운 오버플로 쓰기 파일 작성해야
  g을. 오버 플로우가 다음 오버 플로우가 여러 파일이 최종 출력 파일로 (병합) 병합 쓸 것, 여러 개의 파일을 작성하는 경우. 버퍼 오버 플로우에 추적 결과를 작성 후 오버 플로우가 작성하지만, 임계 값에 도달하지 않은 경우, 데이터와 처리가 완료, 결과는 직접 밖으로 마지막의 마지막에 병합 (병합) 버퍼에 파일을 MapTask 결과를 오버플로 쓸 것 파일

  H. 병합 프로세스에서, 그 결과 정렬되며 재분할 최종 아웃 전체 파일을 다수의 영역으로 분할되고, 정렬
  병합 클래스 (결합기이다)가 지정되어 있다면. 오버플 파일 수> = 3 기록 , 자동 결합으로 시간의 과정에서 병합 할
  문제 :.에 J 관심을
     . 내가 반드시 생성하지 않습니다 오버 플로우 쓰기
     직접 관련이없는 입력의 크기를 슬라이스 II 오버 플로우 쓰기 여부를.
     III 오버 플로우가 요소의 순서를 고려하는 파일 크기를 작성합니다.
     버퍼는 버퍼를 환형으로 형성되도록 IV. 버퍼에 본질적 바이트의 배열이며, 아래의 바이트 배열을 변경 하였다. 배치 된 환형 목적 어드레스 감소시키는
     V 오버플 기입 임계 효과 혼잡을 감소시키는 것이다.
 둘째, 단계 감소 :
  . 프로모터는이 MapTask 파티션 페치 페치 각 스레드 ReduceTask 것 현재 데이터 처리되도록
  B의 ReduceTask. 작은 각에 대응되는 데이터 파일로부터 MapTask 페치 임시 파일에 저장되어있는 데이터에 크롤링
  하였다. ReduceTask이 작은 파일은 파일에 (병합)에 결합되고, 병합 프로세스 데이터가 정렬된다 - 적분 순서 정렬 로컬 될 것이다 - 병합 정렬을 사용하여 프로세스를 정렬하는 정렬 알고리즘 병합
  . 병합이 완료된 후 D, ReduceTask 하나로 반복자를 생성 대응하는 동일한 키 값 이 절차는 패킷에서 호출 (그룹)
  E는 키 당 방법을 감소하면,이 방법은 결과가 HDFS. 줄이기 위해 기록이라고
  문제에 F주의 :를
     내가 5를 가져 스레드의 수를 기본.
     II. 데이터를 페치하는 HTTP 요청을 통해 실을 인출
     III한다. (10)에 인자 기본값을 병합 한 대용량 파일에 각 작은 파일 (10)을 나타내는
     IV. ReduceTask 기본 임계 값은 0.05이며, 즉, 최종 5 %의 실행이 MapTask, 시작 ReduceTask 데이터 캡쳐 시작
 셔플 튜닝 세 :
  .이 값은 400M ~ 250로 조정 한 보통 생산 환경 큰 전송 버퍼를
  . 디스크를 증가시키면서 (B)의 상호 작용 전송 큰 기입 임계 오버플하지만, 감소 될 수 있고 확률 차단
  다. 실제 생산 환경은, 공정 결합 극대화합니다
  . D를 당신은 파일을 마지막을 압축 할 수 있습니다. 이 프로그램은 네트워크 자원의 선택입니다. 네트워크 자원 제약이 방법으로 고려 될 수있는 경우
  전자 스레드의 수가 증가를 가져옵니다.
  F 증가 요인을 병합 - 사용하지 않는 것이 좋습니다
  임계 값이 G 감소 ReduceTask.

권장되는 방법은 ACDE입니다

추천

출처www.cnblogs.com/hi-zhixian/p/11569728.html