Installation et déploiement de Big Data-Spark et configuration de l'environnement Python

Besoin de configurer plusieurs serveurs, environnement expérimental: maître et données deux serveurs, hadoop installé, veuillez vous référer à l'article précédent! ! !

1. installation de l'étincelle

  • installation principale

(1) Téléchargez scala et spark

(2) Décompressez et configurez les variables d'environnement

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3) Configurer le fichier spark-env.sh

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

(4) Configurer le fichier esclaves

data
  • installation de données

(1) Téléchargez scala et spark

(2) Décompressez et configurez les variables d'environnement

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3) Configurer le fichier spark-env.sh

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

Démarrez et testez:

Entrez le répertoire sbin pour démarrer: start-all.sh ou start-master.sh, start-slaves.sh, entrez jps:

affichage principal: affichage des données:

Puis lancez pyspark:

pyspark 

Peut visiter avec succès, puis changer le mode:

pyspark --master spark://master_ip:7077

2. Configurez Anaconda et accédez à distance à Jupyter

(1) Installez Anaconda

installation:

Configurez les variables d'environnement:

(2) Configuration à distance de Jupyter

Référence: https://blog.csdn.net/MuziZZ/article/details/101703604

(3) Combinaison de pyspark et python

export PATH=$PATH:/root/anaconda3/bin
export ANACONDA_PATH=/root/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/jupyter-notebook
#PARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

Interface d'accès:

Je suppose que tu aimes

Origine blog.csdn.net/qq_28409193/article/details/113346624
conseillé
Classement