디렉토리
스파크 연구 및 기술 아키텍처를 이해하는 0-- 간단한주의 사항
은 "스파크 빠른 빅 데이터 분석 '을 기다리고 홀든 Karau [미국]에서 메모 발췌
스파크는 무엇인가
스파크는 빠르고 다양한 클러스터 컴퓨팅 플랫폼을 달성하는 데 사용됩니다.
- MapReduce의 계산 모델은 널리 사용되는 확장
- 메모리에 계산 될 수있다
- 다양한 처리 공정의 간단하고 저렴한 비용으로 통합을위한 통합 프레임 워크
- 인터페이스는 매우 풍부하다
기술 아키텍처와 소프트웨어 스택
스파크는 코어가 여러 컴퓨터에서 실행되는 많은 컴퓨팅 작업의 응용 프로그램을 예약, 또는 컴퓨팅 엔진의 컴퓨팅 클러스터, 유통 및 모니터링 작업입니다
스파크 프로젝트는 밀접하게 관련되어 서로 호출 할 수있는 긴밀하게 통합 된 복수의 구성 요소를 포함
밀접하게 설계 원칙의 장점을 통합 구성 요소 중 :
- 모든 라이브러리 및 고급 구성 요소 소프트웨어 스택이 기본이되는 개선 혜택을 누릴 수 있습니다
- 단지 전체 소프트웨어 스택 작은 가격을 실행하는 소프트웨어 시스템이 필요
- 완벽한 통합은 다른 처리 모델을 적용하도록 구성 될 수있다 (예를 들면, 동시에 기계 학습 데이터 분석)
스파크 코어
- 스파크 코어 스파크는 작업 스케줄링, 메모리 관리, 오류 복구, 스토리지 시스템, 대화 형 모듈을 포함하는 기본 기능을 달성
- 코어가 포함되어 스파크 RDD . 1 API는 정의
스파크 SQL
운영 구조화 된 데이터 패키지의 불꽃
- 당신은 데이터를 쿼리 (HQL) SQL 언어의 SQL과 아파치 하이브 버전을 사용할 수 있습니다
- (등 하이브 테이블, 마루 및 JSON, 등) 지원 다양한 데이터 소스
- 그것은 개발자가 동시에 하나의 응용 프로그램에서 SQL 및 복잡한 데이터 분석을 사용하여 파이썬, 자바 또는 스칼라를 사용하여, 기존의 SQL 데이터 RDD 프로그래밍 작업을 결합 할 수 있습니다
스파크 스트리밍
스파크 점화 스트리밍은 실시간 데이터 스트리밍 제공 2 방정식에 의해 계산 컴포넌트
- 스파크 스트리밍은 데이터 스트림을 조작하기위한 API를 제공하고, 점화 RDD 코어 API의 높이에 대응
- 보기의 접지 지점에서 설계, 스파크 스트리밍 스파크 코어 내결함성 같은 수준 및 특정 확장 성을 지원
MLlib
일반 기계 학습을 제공 (ML) 함수 라이브러리
- MLlib은 기계 학습 알고리즘의 다양한 제공
- 그것은 (일반 그라데이션 하강 최적화 알고리즘 포함) 일부 낮은 수준의 기계 학습의 기본 요소를 제공
시는 이 모든 방법은 클러스터 아키텍처에 쉽게 확장 할 수 있도록 설계되어 있습니다
GraphX
GraphX 라이브러리는지도를 작동하는 데 사용된다 (예 : 소셜 네트워킹 친구 다이어그램 등)
- 도 병렬로 계산 될 수있다.
- 스파크는 RDD API를 확장, 정점을 만드는 데 사용되는 모든 모서리는 모든 속성 소리를 나타내는 두 글자를 할 수 있습니다
- 다양한 작업과 몇 가지 일반적인 그래프 알고리즘을 그리기 지원
클러스터 관리자
- 스파크는 하둡 YARN, 아파치 메소을 포함하여 클러스터 관리자 (클러스터 관리), 다양한에서 실행 지원
- 스파크는 독립적 인 스케줄러라는 간단한 스케줄러, 함께 제공
청중
- 데이터 과학자 - 데이터 과학의 응용
- 엔지니어 - 데이터 처리 응용 프로그램