HDFS와 맵리 듀스 기능, 작동 원리 및 과정에 대한 하둡 플랫폼

 

 

HDFS 일반적인 기능

1. 메타 데이터

2. 체크 포인트

3.DataNode 기능

 

HDFS의 작품

분산 파일 시스템, 그것은 클라이언트가 파일 경로에 액세스로 파일을 한 지정된 디렉토리 트리에있는 파일을 찾으려면 서버 데이터 노드에 0.2 HDFS의 HDFS를 저장 단위의 수에 통합 디렉토리 트리 컷을 제공 관리 당신은 파일의 특정 물리적 위치에 대한 상관 없어 할 수 있습니다. 3 각 HDFS-site.xml 파일에 여러 개의 백업 (기본 3 부)를 저장할 수 있습니다 HDFS 클러스터에있는 모든 파일을 잘라 dfs.replication 값의 수는 백업의 수입니다. 4 HDFS는 서비스 프로세스에서 중요한 과정이 : 네임 노드, 그것은 나무와 실제 저장 위치 HDFS 디렉토리 구조 및 파일 (메타 데이터)의 HDFS 간의 매핑을 유지합니다. "블록을 파일"- 블록을 수신하고 관리하는 책임을 맡은 데이터 노드 서비스 프로세스. 기본 크기는 128M (구성) (dfs.blocksize)입니다. (하둡은 64M입니다의 기본값은 이전 버전을 차단)

HDFS의 업무 프로세스

데이터를 기록 할 HDFS 클라이언트, 제 1 통신이 확정 블록 데이터 노드가 파일을 수신 수득 파일을 작성할 수 네임 노드를 유지하고 파일이 클라이언트에 의해 블록에 전달 께 블록에 의해 수신 된 각 데이터 노드 순차적 책임 데이터 노드 될 블록의 카피를 다른 데이터 노드 사본.

맵리 듀스 기능 시리즈를 달성하기 위해 :

 

HBase를 HDFS와 데이터 간의 변환을위한 함수의 MapReduce ---

 

맵리 듀스 기능은 두 종류를 달성하기 위해 ---

 

맵리 듀스 기능은 세 가지 --- 톱 N을 달성하기 위해

 

MapReduce의 기능 네 --- 작은 집적 달성 (내림차순 HBase를 출력 통계를 판독은 상위 3 HDFS)

 

--- 맵리 듀스 기능 (백작) 계산, 다섯 개 무게 (고유) 달성

 

--- MapReduce의 함수 여섯 개 최대 (최대), 평균 합계 (합) 구현 (평균한다.)

 

MapReduce의 함수 일곱 작은 --- 종합는 (일련의 처리는 다수의 작업의 평균을 계산) 달성

 

여덟 개 --- 파티션 맵리 듀스 기능 (파티션)

 

맵리 듀스 기능 구 --- PV, UV를 달성하기 위해

 

맵리 듀스 기능 10 달성하기 위해 --- 역 색인 (역 색인)

 

맵리 듀스 기능 십일을 달성하기 위해 --- 가입

맵리 듀스 작업 과정

一 .MAP 작업

二 .Reduce 작업

 

추천

출처www.cnblogs.com/068zhengda/p/10965966.html