빅 데이터 기본 : 하둡 시스템 소개 분산

지능형, 모든 것을 인터넷 시대의 급속한 발전과 함께, 데이터의 양이 우리가 효율적이고 안정적으로 우리는 또한 더 얻을 수있는 데이터를 분석하고 처리해야 다른 한편으로는, 대량의 데이터를 저장하는 방법에 대한 생각을 시작하는 데 필요한 한편으로 급증하기 시작했다 가치있는 정보를 제공합니다. 이 시간 우리는 하둡을 사용해야합니다.

 

아파치 소프트웨어 재단 하둡 HDFS (하둡 분산 파일 시스템) 플랫폼을 분산 컴퓨팅 오픈 소스이며, 맵리 듀스 (Hadoop2.0 세분화 된 관리 및 스케줄링 작업을 할뿐만 아니라 지원 원사, 원사 자원 스케줄링 프레임 워크에 합류 스파크와 같은 다른 계산 프레임 워크) 시스템의 하둡 코어는 기본 투명 분산 된 인프라의 세부 사항을 사용자에게 제공합니다. 사용자가 하둡 저렴한 하드웨어에 배포 할 수 있도록한다는 등 높은 결함 허용, 높은 신축성, 높은 효율, HDFS, 분산 시스템을 형성한다.

하둡 생태계

 

기본 하둡뿐만 아니라, 하둡은 매우 완전하고 거대한 오픈 소스 에코 시스템을 위해 개발되었습니다 HDFS는 맵리 듀스 등의 다양한 트리트먼트를 실시,이 기준으로, 파일 저장, 원사 자원 관리 기능을 제공, TEZ, Sprak, 스톰 등 데이터 사용 시나리오의 다양한 요구 사항을 충족합니다.

HDFS 아키텍처

HDFS 아키텍처 다이어그램

 

마스터 - 슬레이브 모델을 사용하여 HDFS는 HDFS 클러스터는 네임 노드가 마스터 서버가 파일에 대한 파일 시스템 네임 스페이스와 클라이언트 액세스 작업을 관리하는 등의 네임 노드와 여러 데이터 노드로 구성하고, 데이터 노드의 데이터 관리 스토리지를 담당하고 있습니다. 데이터를 기초 HDFS 블록의 다수로 절단하고,이 차단 된 후 내결함성 중복성의 목적을 달성하기 위해, 다른 데이터 노드에 저장된 복제 된. 당신이 가입 할 수 있습니다, 시스템 빅 데이터를 배우고 싶은 빅 데이터 기술은 학습 Junyang 놨는데 : (522) 189 (307)

맵리 듀스

 

( ") (감소 감소" "지도 (매핑)"등)지도 및 감소 : 맵리 듀스는 구글의 컴퓨팅 모델의 핵심은, 그것은 클러스터 크기에 매우 추상적 과정 두 가지 기능을 복잡한 과정을하는 컴퓨팅 병렬로 실행될 것이다 . 함수는 입력으로서 키 / 값 쌍을 매핑하고 로컬 디스크의 중간 출력으로 기록 된 키 / 값 쌍의 다른 시리즈를 생성한다. MapReduce의 프레임 워크는 자동적으로 상기 중간 키 값에 따라 데이터를 집계하고, 키 값이 동일한 데이터 통합 ​​기능 처리를 줄이는 것이다. 장소와, 상기 입력 값이 병합 후에 키와 동일한 값의 값리스트에 대응하는 최종 출력 기입 HDFS 같은 키 / 값 쌍의 또 다른 세트를 발생시키는 기능 키를 감소시킨다.

하이브와의 차이 HBase를

 

하둡 기본적인 생태, 그들은 하이브와 HBase를하고, 두 가지 구성 요소들이 차이에 대해 이야기 할 필요가있다. 하이브는 도구 창고 하둡 데이터를 기반으로, 당신은 데이터베이스 테이블에 데이터 파일의 구조를 매핑하고, 간단한 SQL 쿼리 기능을 제공 할 수 있습니다, 당신은 맵리 듀스 작업을 실행하는 SQL 문을 변환 할 수 있습니다. HBase를 하둡 데이터베이스는 분산, 확장 성, 대용량 데이터 저장소입니다.

1.Hive 자체가 계산하고 데이터를 저장, 그것은 HDFS 맵리 듀스, 하이브 순전히 논리적 테이블에 전적으로 의존하지 않습니다. HDFS 저장소 파일을 사용하는 하이브 필요가 필요가 맵리 듀스 컴퓨팅 프레임 워크를 사용합니다.

2.hive는 포장을지도-감소로 생각 될 수있다. 하이브 SQL지도-감소 프로그램을 작성하는 복잡하고 어려운로 변환의 하이브 의미는 쓰기 좋은이다.

3.hbase 물리적 테이블은 논리적 테이블이 아닌 쿼리 작업을 쉽게 검색 엔진 색인에 의해 저장되는 대용량 메모리 해시 테이블.

4.hbase는 HDFS의 패키지로 간주 될 수 있습니다. 그의 본질 데이터 저장하는 NoSQL에 (뿐만 아니라 SQL) 데이터베이스, HBase와는 HDFS, HDFS을 통해 배포 및 랜덤 액세스의 측면에서 단점을 극복한다.

그는 191 개 원래의 논문을 발표 · 원의 찬양 3 · 조회수 30000 +

추천

출처blog.csdn.net/mnbvxiaoxin/article/details/104999617