병렬 분산 컴퓨팅 맵리 듀스

작업 출처 : HTTPS : //edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1. 원리 및 프로세스 작업, 플랫폼 하둡 HDFS와 맵리 듀스 기능을 명확히하기 위해 자신의 단어를 사용합니다.

  HDFS 하둡 분산 파일 시스템의 전체 이름은, 가장 중요한 역할은 각 하둡 에코 시스템의 스토리지 서비스로입니다. 기능 : 객체가 천만 달러에서 싼 메모리 파일의 큰 숫자를 지원할 수 많은 양의 데이터에 액세스 할 수있어서, 매우 좋은 데이터 저장 모드를 고려하여 데이터 배치 대신,이 모드에서, 사용자 상호 작용을 처리 문제보다 데이터 액세스 지연되지만 키 높은 처리량의 데이터에 액세스한다. 작동 방식 :  마스터 / 슬레이브 아키텍처를 사용하여 HDFS는, 두 가지 범주 노드가 작업 네임 노드의 마스터 노드의 조직, 즉 네임 노드와 데이터 노드 노드로 분할되는 경우 시스템에 스토리지를 관리하기위한 일차적 책임이있는 파일에 대한 액세스, 데이터 노드 노드에 대한 책임 .

  주로 분포 그렙 유통 일종의 웹 연결도 반전 각 시스템 어 벡터, 웹 액세스 로그 분석, 역 색인을 구성하는 문서 클러스터링 등의 대용량 데이터를 처리하는 데 사용 : MapReduce의 프로그래밍 모델 함수 , 기계 학습, 통계적 기계 번역, 등등. 작동 방식 : 데이터 블록 기반 데이터 노드뿐만 아니라 하나이기 때문에, 주요 아이디어는 병렬 처리이기 때문에. 그리고이 프래그먼트 통화 데이터 입력의 각각의 블록이 분할 프로세스는 최종 결과를 처리하고 출력 억제 각지도 감소 전달 평행 결과로부터 도출 매핑한다.

  HDFS와 MapReduce는 모두 필수적이다 선 누락되지 HDFS MapReduce의 효과를 갖기 위해 처리 될 데이터의 소스로하고, 또한 HDFS와 MapReduce의 데이터 처리.

추천

출처www.cnblogs.com/hesz/p/10966228.html