Hadoop--------------Créer un pseudo-cluster sur une seule machine pour le big data (cet article suffit)

distribué

L'ensemble de l'application peut être formé par la collaboration de processus (programmes) répartis sur différents hôtes.

Navigateur/serveur web : programme client léger.

Caractéristiques du Big Data 4V

1. Volume : de grande taille

2. Vitesse : rapide

3. Variété : plusieurs styles

4. Valeur : faible densité de valeur

Hadoop

Logiciel open source pour une informatique distribuée fiable, évolutive.

Est un framework qui permet le traitement de grands ensembles de données sur des clusters d'ordinateurs, à l'aide d'un modèle de programmation simple (MapReduce).

Évolutif d'un seul serveur à des milliers d'hôtes, chaque nœud fournit des fonctions de calcul et de stockage. plutôt que de compter sur des machines hautement disponibles

Dépend de la mise en œuvre au niveau de l'application,

Module Hadoop

1.hadoop bibliothèque de classes publique commune

2. Système de fichiers distribué Hadoop HDFS

3. Cadre de planification des tâches et de gestion des ressources Hadoop Yarn

4.Hadoop MapReduce, technologie de traitement parallèle de grands ensembles de données basée sur le système de fil

Comment fonctionne MapReduce

 

Installation d'Hadoop

  1. Jdk (il est recommandé d'utiliser JDK 1.8.11)

Prérequis : Préparer l'environnement Linux

base de données volumineuse

1 système de fichiers

Linux Exts XFS 
Windons HTFS 
hbase installez d'abord HDFS

2.Icône

hbase épaulard 
ruche tête d'éléphant queue d'abeille 
éléphant hadoop

3 écosystèmes Big Data

 

Langage du moteur de recherche Elasticsearch 
(Java/Scala 
)

Hadoop 3 versions 


1 Version communautaire Apache Hadoop (les fonctionnalités gratuites ne sont pas bonnes) 
2 Version de distribution CDH (actuellement utilisée) 
3 Version de distribution HDP (les fonctionnalités payantes sont géniales)

 

Base de données OLAP 
Big data OLTA

HDFS 
MapReduce 
YARN

Construction d'un environnement d'exploitation Hadoop autonome

1Copier la base dans hadoop01

hostnamectl set-hostname hadoop01

vim /etc/systemconfig/network-scripts/ifcfg-ens33 

vim /etc/hosts 

/opt 
cd /opt 
tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz 
mv hadoop soft/hadoop260 
cd soft/hadoop260 
cd etc/hadoop 
pwd 
vim hadoop-env.sh 
1= ============================ 
export JAVA_HOME=/opt/soft/jdk180 
:wq 
1========== =================== 
​vim
core-site.xml 
2======================== ===== 
<configuration> 
    <property> 
        <name>fs.defaultFS</name> 
        <value>hdfs://192.168.64.210:9000</value> 
    </property> 
    <property> 
        <name>hadoop.tmp .rép</name> 
        <valeur>/opt/soft/hadoop260/tmp</value> 
    </property>
</configuration> 
:wq 
2============================ 
​vim
hdfs-site.xml 
3======= ===================== 
<configuration> 
    <propriété 
        > <nom>dfs.replication</nom> 
        <valeur>1</valeur> < 
    /propriété> 
< /configuration> 
:wq 
3============================= 
​cp
mapred-site.xml.template mapred-site.xml 
vim mapred -site.xml 
4============================ 
<configuration> 
    <propriété> 
        <nom>mapreduce.framework.nom</name> 
        <value>fil</value> 
    </property> 
</configuration> 
:wq 
4============================ 
vim fil-site.xml 
5============== ============== 
<configuration> 
    <propriété> 
        <nom>yarn.resourcemanager.localhost</name> 
        <value>localhost</value> 
    </property> 
    <property> 
        <name> Yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value> 
    </property> 
</configuration> 
:wq 
5============================= 
​#Configurer
les variables d'environnement hadoop. Veuillez utiliser votre propre 
vim hadoop260 /etc/profile 
6== = ========================= # 
Exportation 
Hadoop ENV HADOOP_HOME=/opt/soft/hadoop260 
exportation HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL=$HADOOP_HOME 
​:
wq 
6============ ================ 
#Activez la 
source de configuration ci-dessus /etc/profile 
#Connectez-vous sans mot de passe 
ssh-keygen -t rsa -P '' 
cd /root/.ssh/ 
ls 
ssh - copy-id -i ~/.ssh/id_rsa.pub [email protected] 
oui 
ok 
ls 
ll 
ssh 192.168.64.210 
exit 
#Connectez-vous à distance à hadoop210 en tant que votre propre nom d'hôte/ect/hosts ou systemctl sethostname hadoop210# ssh 
hadoop210 
oui 
, quittez  
#Connectez-vous directement sans mot de passe
ssh hadoop210, 
quittez 
#Format NameNode 
hdfs namenode 
-format

 

lire

1 client recherche le NameNode et demande l'emplacement du fichier 
2 NameNode--->fsimage(editlog)--->client (donner l'adresse) 
3 client utilise l'adresse pour trouver les données dans le DataNode correspondant

Écrire

1 client recherche NameNode et demande l'adresse de stockage du fichier 
2 NameNode--yarn donne une adresse--->client 
3 client--->DataNode--->NameNode veut sauvegarder l'adresse du nœud 
4 NameNode---> DataNode-->donne l'adresse 
5 DataNode--channel-->Transmettre les données au nœud de sauvegarde 
6 Une fois l'écriture du nœud de sauvegarde terminée--->Premier DataNode--->client 
7 client-NameNode

2Démarrez hadoop01

start-all.sh 
oui 
oui 
jps 

#Navigateur pour afficher la construction du cluster hadoop sur une seule machine terminée 
192.168.64.210:50070

3. Arrêtez le système

arrêter-tout.sh

Je suppose que tu aimes

Origine blog.csdn.net/just_learing/article/details/126129255
conseillé
Classement