"빅 데이터 기술과 원리,"두 번째 버전 - 제 III HDFS 분산 파일 시스템

3.1 분산 파일

  1. HDFS 기본 블록 크기는 64메가바이트이며, 파일 데이터 저장 공간의 전체 블록을 차지하지 않는 데이터 블록의 크기보다 작은 경우 일반 파일과 다릅니다.
  2. 또한, 노드의 마스터 노드 이름이라고도 상기 호출 노드 데이터를 노드로부터 다른 쪽이라한다. 이름 노드는 파일과 디렉토리, 삭제, 이름 변경에 대한 책임 만들고, 노드 및 파일 블록 사이의 데이터 매핑을 관리 할 수 ​​있습니다. 데이터 노드는 데이터 저장 및 검색 할 책임이있다.

3.2HDFS 관련 개념

  1. 맵리 듀스 맵 처리 한 블록의 데이터. HDFS 혜택을 가져올 수있는 추상적 인 개념을 차단 :
    • 대규모 파일 저장 지원
    • 시스템을 단순화
    • 데이터 백업을 위해
  2. 안전 모드에서 시작 프로세스 노드의 이름으로 만 쓰기 작업이 제공 할 수없는 외부 읽기 동작을 제공한다. 부팅 프로세스 후, 시스템이 안전 모드를 종료합니다, 당신은 외부 세계에 읽기 및 쓰기 작업을 제공 할 수 있습니다.
  3. 노드 이름은 두 개의 코어 데이터 구조에 저장 EditLog FsImage
  4. 이 문제를 해결하기 위해 제 2 노드 이름은 EditLog 점차 증가가 발생하고, 두 기능 EditLog FsImage 병합 동작, 노드 이름 체크 포인트는 초기 백업 참고.

3.4HDFS 아키텍처

  1. 마스터 - 슬레이브 모델은 전체 HDFS 클러스터는 하나의 공간이며, 이름 만 노드가있다.
  2. HDFS 통신 프로토콜은 프로토콜, 노드 이름 및 노드 데이터 노드 간의 데이터 상호 작용에 사용되는 프로토콜과 상호 작용하는 클라이언트 노드의 이름을 사용하여, 위의 TCP / IP 프로토콜에 내장되어 있습니다. 데이터와 상호 작용하는 클라이언트 노드는 RPC를 통해 달성된다.
  3. 만 노드 이름을 설정하기 때문에, 제한 사항이 있습니다.
    • 네임 스페이스 제한
    • 성능 병목 현상
    • 문제를 분리
    • 가용성 클러스터
  4. HDFS의 저장 원리
    • 데이터의 신뢰성을 보장하기 위해, 데이터 전송 속도를 향상; 데이터 오류를 확인하기 쉬운 중복 데이터 저장, 다음과 같은 장점이 있습니다
    • 데이터 액세스 데이터 저장을 포함하여 정책, 읽기 데이터 데이터 복제 (복제 전략을 파이프 라이닝), (근접의 원칙은 HDFS API는 랙 ID 데이터 노드가 결정될 수 속하는 제공).
    • 데이터 복구 및 오류, 오류 노드 이름 (제 1 두 개의 코어 데이터 구조를 통해, 그러나 제 이름 노드에 의해) 노드의 데이터 오류, 데이터 에러

데이터 처리 3.6HDFS를 읽고 쓰기

  • HDFS는 공정, 그림 읽기

  • 쓰기, 사진의 HDFS 과정
    1. 파일 요청 만들기
    2. 파일의 메타 데이터를 생성
    3. 데이터 쓰기
    4. (파이프 라인 복제 포함) 쓰기 패킷
    5. 응답 패킷을 수신
    6. 파일을 닫습니다
    7. 写操作完成
  • hadoop fs(用作任何文件系统,比如本地文件系统和HDFS文件系统)hadoop dfs(只适用于HDFS文件系统)hdfs dfs(也只适用于HDFS文件系统)

추천

출처www.cnblogs.com/tsruixi/p/12078848.html