스파크 설치 및 사용

로컬 모드

개요

지역 모델은 컴퓨터 스파크 프로그램, 일반적으로 연습 손을 사용하고 시스템 테스트에서 실행되고, 그것은 스레드 노동자에 매핑됩니다.   

1) 지방 : 스레드에서 실행되는 모든 계산을 더 병렬 컴퓨팅은 일반적으로, 우리는 기본 코드로 다수의 시험을 수행하지 않거나,이 모델을 사용하여 손을 실행;

2) 로컬 [K]는 : 여러 스레드를 사용하여 계산 지정 현지 [4] 작업자 스레드 4가 실행되고, 실행한다. 일반적으로 우리는 몇 가지 CPU 코어는, 여러 개의 스레드를 지정할 수 있고, CPU는 컴퓨팅 파워의 사용을 극대화;

3) 지역 [*] :이 모드는 가장 직접적으로는 스레드의 수를 설정하기 위해 CPU 코어에 따라 도움이됩니다 .

 

설치

 

1) 업로드하고 추출 스파크 설치 패키지를

 

타르 -zxvf 스파크 2.1.1 단 - hadoop2.7.tgz -C / 옵션 / 모듈 /

 

2) 공식 요청 PI 케이스

 

빈 / 스파크 제출 \

--class org.apache.spark.examples.SparkPi \

--executor 메모리 1G \

--total - 연기자 - 색상 2 \

./examples/jars/spark-examples_2.11-2.1.1.jar \

(100)

 

 

이 알고리즘을위한 몬테 카를로 알고리즘 파이 , 다음의 결과 :

 

 

 

 

독립 모드

(A)의 건설 슬레이브 + 마스터의 구성 기본 불꽃 Explorer를 사용하여 불꽃 클러스터, 클러스터의 불꽃 실행.

 

원사 모드

개요 :

스파크 클라이언트는 직접 연결 원사, 추가 건물 스파크 클러스터를. 원사 - 클라이언트와 실 클러스터 모드, 주요 차이점은 다음과 같습니다 실행 노드 드라이버 프로그램입니다.

원사 클라이언트 : 로컬 메인 프로그램 로직 실행이 작업은 클러스터 원사에서 실행

클러스터 - 원사 : APPMaster, 주 프로그램 로직 및 작업 원사 클러스터를 실행됩니다. 프로덕션 환경.

 

설치 :

1) 수정 하둡 프로필 원사를 site.xml 다음을 추가

 <! - 값이 죽일 직접 디폴트는 true 할당을 넘어 물리적 메모리의 양이 각각의 작업에서 사용되는 스레드 검사를 시작할지 여부를 작업 인 경우 -> 
        < 속성 > 
                < 이름 > yarn.nodemanager.pmem-을 사용 검사 </ 이름 > 
 < > false로 </ > 
        </ 속성 > 
        <! - 작업이 값을 초과하는 경우 가상 메모리의 양이 각 작업에 사용되는 스레드 검사를 시작할지 여부를 킬 (kill)에 직접 할당 기본값은 사실이다 -> 
        < 속성 > 
                < 이름 > yarn.nodemanager.vmem - 체크인 가능 </ 이름 > 
                < > false로 </ >
        </부동산 >

 

2) 분포 프로필

xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml

 

3) 수정 spark-env.sh, 다음과 같은 구성을 추가 :

YARN_CONF_DIR = / 옵션 / 모듈 / 하둡-2.7.2을 / etc / 하둡

 

프로그램 4) 실시

$ 빈 / \ 스파크 제출 
--class org.apache.spark.examples.SparkPi \ 
--master 실 \ 
--deploy 모드 클라이언트 \ 
./examples/jars/spark-examples_2.11-2.1.1.jar \ 
(100)

참고 :

1. 프로그램을 실행하기 전에 실이 정상적으로 HDFS 시작되었는지 확인합니다

2. 구성 파일을 적용 할 수 있도록 실의 원사를 다시 시작 구성 파일을 수정 한 후

3. 원사 모드, 모든 노드에있는 모든 하위 스파크 패키지의 필요성? 그것은 실에서 실행되기 때문에 아니, 자원 관리 및 스케줄링은 원사에 대한 책임이 있습니다. 하나의 클라이언트 노드에서 스파크를 제공합니다.

 

스파크 쉘

시작 올바른 자세는 스파크 쉘 : 불꽃 디렉토리의 하단에 입력 빈 / 스파크 - 쉘 

올바른 자세의 확대 스파크 쉘이다 :: 대장에, 임금의 관심을 종료

부분 파라미터는 다음 (스파크 제출 이하, 매우 유사 함)이다 :

옵션 : 
  --master MASTER_URL 스파크 : // 호스트 : 포트, 메소 : // 호스트 : 포트, 원사, 또는 로컬. 
  --deploy 모드 DEPLOY_MODE 여부 로컬 ( "클라이언트") 또는 드라이버 프로그램을 실행하는 
                              클러스터 ( "클러스터") 내부의 작업자 시스템 중 하나에서 
                              (: 클라이언트 기본값).

 

 

스파크 작업 제출

基本语法:
빈 / 스파크 \ 제출
- 클래스 <main- 클래스>
--master <마스터 URL> \
--deploy 모드 <배포 모드> \
--conf <키> = <값> \
.. . # 다른 옵션
<응용 프로그램 항아리> \
[응용 프로그램 인수]

 

\ 세퍼레이터이고;

 

-이 옵션이 선택 사항임을 나타내고, 순서는 컨버터블이다

 

마스터는 지정된 주소 --master, 기본 로컬입니다.

  패턴이 실 인 경우, 실이다

  // 마스터 : 독립형 모드 경우, 스파크는 포트

  모드가 로컬 인 경우, (스레드의 수에 따른 * CPU 코어의 개수가 설정된 나타냄) 로컬 지역 [N]을 인 (N 핵의 수를 나타냄), 로컬 [*]를

 

--class : (예 : org.apache.spark.examples.SparkPi 등) 응용 프로그램에서 클래스를 시작합니다

--deploy 모드 : 작업자 노드 (클러스터)에 드라이브를 게시하거나 여부를 로컬 클라이언트 (클라이언트) (기본값 : 클라이언트) 등 *

 

--conf ". = 키 값"점화 임의의 구성 속성 포맷 = 키 값의 값이 공백이 있으면 따옴표

응용 프로그램 항아리 : 패키지 응용 프로그램 항아리, 클러스터의 세계적으로 볼이 URL에 의존 포함되어 있습니다. 이 파일 인 경우 // 공유 스토리지 시스템 : 예를 들어 HDFS를 들어 // 경로, 다음 경로 노드는 모두 같은 항아리를 포함

) (주 메서드에 전달 된 매개 변수 : 애플리케이션 인수

각각의 집행에 사용할 수 지정 --executor 메모리 1G 1G 메모리

컵 (2)에 사용되는 각각의 핵 실행기 지정된 수의 2---total 실행기 코어

 

 

 

 

 

 

 

 

 

추천

출처www.cnblogs.com/chxyshaodiao/p/12361782.html