스파크 연구 및 기술 아키텍처를 이해하는 0-- 간단한주의 사항

스파크 연구 및 기술 아키텍처를 이해하는 0-- 간단한주의 사항

은 "스파크 빠른 빅 데이터 분석 '을 기다리고 홀든 Karau [미국]에서 메모 발췌

스파크는 무엇인가

스파크는 빠르고 다양한 클러스터 컴퓨팅 플랫폼을 달성하는 데 사용됩니다.

  • MapReduce의 계산 모델은 널리 사용되는 확장
  • 메모리에 계산 될 수있다
  • 다양한 처리 공정의 간단하고 저렴한 비용으로 통합을위한 통합 프레임 워크
  • 인터페이스는 매우 풍부하다

기술 아키텍처와 소프트웨어 스택

스파크는 코어가 여러 컴퓨터에서 실행되는 많은 컴퓨팅 작업의 응용 프로그램을 예약, 또는 컴퓨팅 엔진의 컴퓨팅 클러스터, 유통 및 모니터링 작업입니다

스파크 프로젝트는 밀접하게 관련되어 서로 호출 할 수있는 긴밀하게 통합 된 복수의 구성 요소를 포함

스파크 소프트웨어 스택 .JPG

밀접하게 설계 원칙의 장점을 통합 구성 요소 중 :

  • 모든 라이브러리 및 고급 구성 요소 소프트웨어 스택이 기본이되는 개선 혜택을 누릴 수 있습니다
  • 단지 전체 소프트웨어 스택 작은 가격을 실행하는 소프트웨어 시스템이 필요
  • 완벽한 통합은 다른 처리 모델을 적용하도록 구성 될 수있다 (예를 들면, 동시에 기계 학습 데이터 분석)

스파크 코어

  • 스파크 코어 스파크는 작업 스케줄링, 메모리 관리, 오류 복구, 스토리지 시스템, 대화 형 모듈을 포함하는 기본 기능을 달성
  • 코어가 포함되어 스파크 RDD . 1 API는 정의

스파크 SQL

운영 구조화 된 데이터 패키지의 불꽃

  • 당신은 데이터를 쿼리 (HQL) SQL 언어의 SQL과 아파치 하이브 버전을 사용할 수 있습니다
  • (등 하이브 테이블, 마루 및 JSON, 등) 지원 다양한 데이터 소스
  • 그것은 개발자가 동시에 하나의 응용 프로그램에서 SQL 및 복잡한 데이터 분석을 사용하여 파이썬, 자바 또는 스칼라를 사용하여, 기존의 SQL 데이터 RDD 프로그래밍 작업을 결합 할 수 있습니다

스파크 스트리밍

스파크 점화 스트리밍은 실시간 데이터 스트리밍 제공 2 방정식에 의해 계산 컴포넌트

  • 스파크 스트리밍은 데이터 스트림을 조작하기위한 API를 제공하고, 점화 RDD 코어 API의 높이에 대응
  • 보기의 접지 지점에서 설계, 스파크 스트리밍 스파크 코어 내결함성 같은 수준 및 특정 확장 성을 지원

MLlib

일반 기계 학습을 제공 (ML) 함수 라이브러리

  • MLlib은 기계 학습 알고리즘의 다양한 제공
  • 그것은 (일반 그라데이션 하강 최적화 알고리즘 포함) 일부 낮은 수준의 기계 학습의 기본 요소를 제공

시는 이 모든 방법은 클러스터 아키텍처에 쉽게 확장 할 수 있도록 설계되어 있습니다

GraphX

GraphX ​​라이브러리는지도를 작동하는 데 사용된다 (예 : 소셜 네트워킹 친구 다이어그램 등)

  • 도 병렬로 계산 될 수있다.
  • 스파크는 RDD API를 확장, 정점을 만드는 데 사용되는 모든 모서리는 모든 속성 소리를 나타내는 두 글자를 할 수 있습니다
  • 다양한 작업과 몇 가지 일반적인 그래프 알고리즘을 그리기 지원

클러스터 관리자

  • 스파크는 하둡 YARN, 아파치 메소을 포함하여 클러스터 관리자 (클러스터 관리), 다양한에서 실행 지원
  • 스파크는 독립적 인 스케줄러라는 간단한 스케줄러, 함께 제공

청중

  • 데이터 과학자 - 데이터 과학의 응용
  • 엔지니어 - 데이터 처리 응용 프로그램

기원 및 개발

스파크 역사 .PNG



  1. 분산 데이터 (탄성 분산 세트, RDD을 함)의 탄성으로 설정. RDD 요소의 분포를 계산 노드 스파크 기본 프로그래밍 추상화 복수의 병렬 동작 세트를 나타낸다.

  2. 이러한 웹 서버 로그, 메시지 큐 등

추천

출처www.cnblogs.com/aar-lee/p/11496733.html