빅 데이터 - 얼굴 질문 요약

요약 ...

https://juejin.im/post/5b5ac91051882519a62f72e5
https://zhuanlan.zhihu.com/p/35591010


  1. HDFS는 파일을 업로드하고 파일 프로세스를 읽기
    가. 클라이언트는 네임 노드의 데이터에 요청을 보냅니다
    B. 네임 노드가리스트 클라이언트이 host1의 호스트 2로 저장 될 수 반환 ...
    128M 블록 (128M의 블록 기본 크기)에 따라 C. 클라이언트 파일
    D. 클라이언트는 호스트 1을 전송 BLOCK1, 스트리밍 전송 과정이 기록됩니다.
    동시에 블록 (Block) HOST2 (DataNode에서)를 송신 HOST1,
    HOST2 동시에 블록 (Block) 호스트 3 (DataNode에서)을 송신하는
    E. 호스트 1 (DataNode에서)는, 클라이언트에 통지를 보내는 전송 완료 나타내는
    스토리지에 Host1,2,3 네임 노드 완료보고한다.
    바. 클라이언트는 * 완성 된 블록을 말하고, 네임 노드에 메시지를 보냅니다

  1. 하나 개의 블록이 갑자기 어떻게 할 손상된 경우 HDFS는 파일을 업로드 할 때?

나는 정답을 찾을 수 없습니다?
상기 불량 블록만큼 다른 블록의 존재를 자동 감소를 검출한다.


  1. 네임 노드의 역할
    3.1 네임 스페이스 관리
    3.2 메타 데이터 관리
    전략의 3.3 관리 블록 복사 : 기본값은 3
    클라이언트 3.4 거래 읽고 작업의 할당에 대한 요청을 쓰기 데이터 노드

  1. 이펙트 데이터 노드
    노드 작업 4.1 슬레이브
    4.2 블록에 저장된 데이터의 체크섬
    판독 또는 기입 동작하기 위해 클라이언트에 의해 전송 된 4.3
    주기적 하트 비트 메커니즘 (기본값 : 3 초)으로 동작 상태 정보, 네임 노드 차단 목록을보고하여 4.4
    4.5 클러스터 시작 상기 데이터 노드 네임 노드 정보 제공 블록

시작 작업에서 5.NameNode는 무엇을 할 것인가?
답변 :
이 경우 BLOCKMAP의 DataNode에서 목록의 각 BLOCKID BLOCKMAP을 쓰는 동안 Fsimage로드시에 일시적으로 빈 해당 메모리의 전체 공간을 구축, FsImage로드, 메모리에 전체 디렉토리 구조는 HDFS는있다 초기화.
로딩 fsimage 완료 후, 네임 노드 프로세스 RPC가 대기 상태를 입력 할 수 있도록 DataNode에서는 데이타 노드의 모든 blockReports을 보낼 기다리고에서 blockReport의 데이터 노드에서 누락 된 정보를 얻을 필요가있다.


워크 플로우 제출 6.Hadoop
값 :
첫 번째 단계 :
클라이언트, 클라이언트가 씨 패킷 JobClient의 항아리를 제출
(제출 : 하둡 항아리)

두 번째 단계는 :
RM의 프록시 개체를 보유 JobClient 경로, RM은 RPC (원격 프로 시저 호출) 요청에 전송의 RM 작업이 다음 클라이언트에 작업 ID RM 및 저장 항아리 패키지를 반환하기 시작했다

세번째 단계 :
접두사로서 수득 클라이언트 경로 항아리 패키지는 작업 ID 새로운 경로 HDFS에서 분할 (HDFS + 작업 ID에 경로 = 주소) 등의 접미어 다음 클라이언트가 파일 시스템을 통해 저장 용기 패키지 HDFS 기본 스토리지 10 부 (DateNode 네임 노드와 다른 동작)

단계 4 개는 :
는 RPC RM에 작업 클라이언트 수익률 (저장 항아리와 바느질 작업 ID 후 경로 패키지) 작업 설명 정보를 제출 시작

5 단계 :
RM은 스케줄러로 다음 작업을 초기화하고,

6 단계 :
HDFS 파일을 처리하는 판독 RM은, 슬라이스를 입력하기 시작, 각 슬라이스는 MapperTask, 매퍼부터 얼마나 많은 결정 데이터의 양, 감속기 번호에 해당

단계 세븐 :
ResourceManager에로 작업 (작업 설명)받을 수있는 하트 비트 메커니즘에 의해 NodeManager

단계 팔 :
HDFS에 항아리 패키지 및 구성 파일을 다운로드 작업 NodeManager를받을

아홉 번째 단계 :
NodeManager 적절한 자식 프로세스의 yarnchild 실행 맵리 듀스, 실행 maptask 또는 reducetask 시작

열 번째 단계 :
지도 HDFS를 줄이기 위해 전달 된 후 데이터 및 읽기, 데이터는 다시 HDFS를 출력을 줄이기 위해

여기에 그림 삽입 설명

이노 디비 업무를 달성하는 방법


높은 가용성을 달성기구 1.HDFS

  1. 액티브 및 대기 NN NN 스위칭 대기
  2. QJM 사용 메타 데이터는 고 가용성 달성하기 위해
    QJM 메커니즘을 : 한 성공 쿼럼 (정족수) 작업의 수의 보증으로, 나는이 동작의 궁극적 인 성공 생각
    QJM 공유 스토리지 시스템
  3.   利用ZooKeeper实现Active节点选举
    

2. 실에 사용할 수 있으며, 각 스케줄링 정책의 특성을 규정 한 TDH 플랫폼 스케줄링 전략의 종류를 적어주세요.

  1. FIFO 스케줄러
    큐에 모든 작업은 큐는 작업의 뒷면에, 고급 자원을 기다려야 얻을 수
  2. 용량 스케줄러
    핵심 아이디어 : 사전에 예산, 예산의지도하에 클러스터 자원을 공유하기
    여기에 그림 삽입 설명
  3. 공정 스케줄러
    여기에 그림 삽입 설명

3. 벌크로드 데이터웨어 하우징

데이터가 HDFS에서 HFILE HBase를 파일 형태로 저장되기 때문에, 우리는 HBase를 API를 우회하기 때문에, 데이터가 직접 HFILE 파일로 처리하고 신속하게 대규모 데이터웨어 하우징을 완료하기 위해 HBase를에로드 의미 :

HBase를 벌크로드의 기본 흐름 :

  1. 추출 : 데이터 소스에서 데이터를 추출
    - MySQL의 수출 데이터는 mysqldump는 명령을 실행

  2. 변환 : 데이터 파일 HFILE 변환, 맵리 듀스를 사용
    - 사용 HBase를 ImportTsv HFILE 도구에 대한 TSV 또는 CSV 파일 것은 문서로 변환하기 - 폴더 HFILE 파일을 만듭니다 각 출력 파일의 각 영역에 대해
    - HDFS 가능한 디스크에 공간이 두 배 이상 원래의 입력 파일. 예를 들어, 100GB의 mysqldump는 수출 파일, HDFS는 적어도 적은 디스크 공간의 2백기가바이트보다, 당신은 작업이 끝난 후 원래 입력 파일을 삭제할 수 있습니다 예약

  3. 로드 : HBase를 넣으 HFILE 파일
    - 도구의 HBase를 CompleteBulkLoad의 사용은 해당 디렉토리 HFILE HBase를 테이블에 파일을 이동,로드가 완료
    여기에 그림 삽입 설명
    여기에 그림 삽입 설명

여기에 그림 삽입 설명


추천

출처blog.csdn.net/shaoye_csdn1/article/details/90636528