3.1 분산 파일
- HDFS 기본 블록 크기는 64메가바이트이며, 파일 데이터 저장 공간의 전체 블록을 차지하지 않는 데이터 블록의 크기보다 작은 경우 일반 파일과 다릅니다.
- 또한, 노드의 마스터 노드 이름이라고도 상기 호출 노드 데이터를 노드로부터 다른 쪽이라한다. 이름 노드는 파일과 디렉토리, 삭제, 이름 변경에 대한 책임 만들고, 노드 및 파일 블록 사이의 데이터 매핑을 관리 할 수 있습니다. 데이터 노드는 데이터 저장 및 검색 할 책임이있다.
3.2HDFS 관련 개념
- 맵리 듀스 맵 처리 한 블록의 데이터. HDFS 혜택을 가져올 수있는 추상적 인 개념을 차단 :
- 대규모 파일 저장 지원
- 시스템을 단순화
- 데이터 백업을 위해
- 안전 모드에서 시작 프로세스 노드의 이름으로 만 쓰기 작업이 제공 할 수없는 외부 읽기 동작을 제공한다. 부팅 프로세스 후, 시스템이 안전 모드를 종료합니다, 당신은 외부 세계에 읽기 및 쓰기 작업을 제공 할 수 있습니다.
- 노드 이름은 두 개의 코어 데이터 구조에 저장 EditLog FsImage
- 이 문제를 해결하기 위해 제 2 노드 이름은 EditLog 점차 증가가 발생하고, 두 기능 EditLog FsImage 병합 동작, 노드 이름 체크 포인트는 초기 백업 참고.
3.4HDFS 아키텍처
- 마스터 - 슬레이브 모델은 전체 HDFS 클러스터는 하나의 공간이며, 이름 만 노드가있다.
- HDFS 통신 프로토콜은 프로토콜, 노드 이름 및 노드 데이터 노드 간의 데이터 상호 작용에 사용되는 프로토콜과 상호 작용하는 클라이언트 노드의 이름을 사용하여, 위의 TCP / IP 프로토콜에 내장되어 있습니다. 데이터와 상호 작용하는 클라이언트 노드는 RPC를 통해 달성된다.
- 만 노드 이름을 설정하기 때문에, 제한 사항이 있습니다.
- 네임 스페이스 제한
- 성능 병목 현상
- 문제를 분리
- 가용성 클러스터
- HDFS의 저장 원리
- 데이터의 신뢰성을 보장하기 위해, 데이터 전송 속도를 향상; 데이터 오류를 확인하기 쉬운 중복 데이터 저장, 다음과 같은 장점이 있습니다
- 데이터 액세스 데이터 저장을 포함하여 정책, 읽기 데이터 데이터 복제 (복제 전략을 파이프 라이닝), (근접의 원칙은 HDFS API는 랙 ID 데이터 노드가 결정될 수 속하는 제공).
- 데이터 복구 및 오류, 오류 노드 이름 (제 1 두 개의 코어 데이터 구조를 통해, 그러나 제 이름 노드에 의해) 노드의 데이터 오류, 데이터 에러
데이터 처리 3.6HDFS를 읽고 쓰기
HDFS는 공정, 그림 읽기
- 쓰기, 사진의 HDFS 과정
- 파일 요청 만들기
- 파일의 메타 데이터를 생성
- 데이터 쓰기
- (파이프 라인 복제 포함) 쓰기 패킷
- 응답 패킷을 수신
- 파일을 닫습니다
- 写操作完成
hadoop fs(用作任何文件系统,比如本地文件系统和HDFS文件系统)hadoop dfs(只适用于HDFS文件系统)hdfs dfs(也只适用于HDFS文件系统)