第一步、配置SSH免密码登录
ssh-keygen -t rsa 生成私钥与公钥文件(按3次回车键) ssh-copy-id localhost 发一把公钥给localhost ssh localhost 使用公钥密码登录
/* 如果服务器的IP是10.10.10.10 我本机电脑的ip是111.111.111.111 */ ssh-copy-id 111.111.111.111 /*由服务器(10.10.10.10)发一把公钥给我(111.111.111.111)*/ ssh 10.10.10.10 /*我使用公钥密码登录服务器*/第二步、Hadoop安装(使用伪分布式):
/*下面我们用3台服务器来实现分布式数据库,配置如下:*/ sudo vim /etc/hosts 编辑hosts文件
在hosts文件中添加以下内容:
192.168.40.128 node1 192.168.40.128为对应服务器的IP 192.168.40.129 node2 192.168.40.130 node3安装hadoop-2.6.0.tar.gz的步骤:
①、先把hadoop-2.6.0.tar.gz上传复制到sa的主目录里
②、tar -xvf hadoop-2.6.0.tar.gz 解压,然后重命名为hadoop
第三步、配置hadoop环境变量
vi /etc/profile 编辑环境变量文件
在profile最底部添加以下内容:
#set hadoop environment export HADOOP_HOME=/home/sa/hadoop export PATH=$HADOP_HOME/bin:$PATH
source /etc/profile 使当前文件生效
第四步、进入hadoop/etc/hadoop目录下,修改7个配置文件,如下:
①、hadoop-env.sh
export JAVA_HOME=/home/sa/jdk7
②、yarn-env.sh
export JAVA_HOME=/home/sa/jdk7③、slaves
<!--有多少台服务器作为分布式数据库,就加多少个节点--> node1 node2 node3
④、core-site.xml
(Hadoop全局配置)
<configuration> <!--指定namenode的地址,用来访问hdfs数据库--> <property> <name>fs.defaultFS</name> <value>hdfs://node1:9000</value> </property> <!--用来指定使用hadoop时产生临时文件的存放目录--> <property> <name>hadoop.tmp.dir</name> <value>file:/home/sa/hadoop/tmp</value> </property> <!--用来设置检查点备份日志的最长时间--> <name>fs.checkpoint.period</name> <value>3600</value> </configuration>⑤、hdfs-site.xml (HDFS的配置)
<configuration> <!--指定hdfs中namenode服务器HTTP地址--> <property> <name>dfs.namenode.secondary.http-address</name> <value>node1:50090</value> </property> <!--指定hdfs中namenode的存储位置--> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/sa/hadoop/dfs/name</value> </property> <!--指定hdfs中datanode的存储位置--> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/sa/hadoop/dfs/data</value> </property> <!--指定hdfs保存数据的副本数量--> <property> <name>dfs.replication</name> <value>2</value> </property> <!--是否开启网页功能--> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>⑥、mapred-site.xml (分析员MapReduce的配置)
<configuration> <!--告诉hadoop以后MapReduce运行在YARN上(分析员所用的框架名)--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!--分析员工作历史记录地址--> <property> <name>mapreduce.jobhistory.address</name> <value>nonde1:10020</value> </property> <!--用网页看分析员的历史工作记录--> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>nonde1:19888</value> </property> </configuration>⑦、yarn-site.xml (yarn框架的配置)
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>node1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>node1:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>node1:8035</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>node1:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>node1:8088</value> </property> </configuration>第五步、在主服务器(Master)上格式化NameNode (验证Hadoop配置是否正确)
cd ~/hadoop bin/hdfs namenode -format第六步、启动Hadoop
cd ~hadoop(注意:必须在hadoop的安装目录下执行命令)
①、首先,启动HDFS
sbin/start-dfs.sh②、然后,启动YARN
sbin/start-yarn.sh也可以用下面的命令,同时启动(或停止)HDFS和YARN
sbin/start-all.sh 全部启动 sbin/stop-all.sh 全部停止③、查看集群状态,看Hadoop是否启动成功
bin/hdfs dfsadmin -report