빅 데이터 에코 시스템 --Hadoop

면책 조항 :이 문서는 블로거 원본입니다, 추적 에 의해-SA의 CC 4.0 저작권 계약, 복제, 원본 소스 링크이 문을 첨부 해주세요.
이 링크 : https://blog.csdn.net/qq_39530692/article/details/85008127

먼저, 하둡 무엇을 설명 할 수 있습니다.

 

 

하둡은 HDFS 소위, 두 가지 핵심 구성 요소, HDFS 하나를 가지고 분산 파일 스토리지 시스템입니다.

맵리 듀스에 대한 두 가지, 즉 분산 컴퓨팅 시스템 (분산 컴퓨팅 프레임 워크 오프라인)입니다.

상기 두 성분은, 대용량 데이터 스토리지의 문제가 큰 데이터가 산출 하였다 해결.

나머지 둘은 기본적으로 도구에서 파생됩니다.

프로그래밍 언어 Maperduce :

1 Jave (가장 원시적 인 방법)

2, 하둡 스트리밍 (여러 언어를 지원)

3 하둡 파이프 (C 및 C ++ 용)

두싯 알고리즘을 제공한다 : 분류, 클러스터링 빈번 패턴 마이닝 벡터 유사도 계산 추천 엔진 사이즈 감소, 진화 알고리즘, 회귀 분석 등을

하이브 : 데이터웨어 하우스는 구조화되지 않은 로그 데이터, SQL과 유사한 언어 HQL의 구조,하지만 동일하지를 해결하는 대규모 통계 문제에 대한 하둡의 상단에 내장되어 있습니다.

돼지 : 돼지 라틴어 데이터 스트림을 이용하여 데이터의 MapReduce의 병렬 처리를 사용 하둡 기반 데이터 플로우 실행 엔진

하이브 : 그 Hive2 (침)은, 기본 알고리즘 엔진 TEZ (DGA 산출 프레임)에 MapReduce에 의해 대체된다

임팔라 : 처리 데이터는 HDFS에 직접 저장, 빠른 대화 형 쿼리에 대한 좋은 확장 성 및 내결함성과, HDFS 시간에 데이터를 기록 할 수 있습니다.

Oozie :

추천

출처blog.csdn.net/qq_39530692/article/details/85008127