2.同步机器时间、关闭各节点防火墙、修改hosts、namenode节点免密登录其他节点
3.安装jdk
4.配置配置文件: core-site.xml 、hdfs-site.xml 、mapred-site.xml、yarn-site.xml、slaves、hadoop-env.sh、yarn-env.sh
1)core-site.xml最基本配置: namenode RPC交互端口和 hadoop临时工作目录
<property> <!--hdfs访问uri --> <name>fs.defaultFS</name> <value>hdfs://hdp5:9000</value> </property> <property> <!--hadoop工作目录 --> <name>hadoop.tmp.dir</name> <value>/root/apps/hadoop/data/tmp</value> </property>
2)hdfs-site.xml最基本配置: dfs数据备份数和 secondarynamenode的web管理地址
<property> <!--数据备份数--> <name>dfs.replication</name> <value>2</value> </property> <property> <!--secondaryNamenode节点的进程节点和访问端口--> <name>dfs.secondary.http.address</name> <value>hdp5:50090</value> </property>
3)mapred-site.xml最基本配置: hadoop资源管理框架选择yarn
<property> <!--Mapr调度框架--> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
4)slaves配置数据节点主机名
5)hadoop-env.sh、yarn-env.sh配置其中的JAVA_HOME
5、启动hadoop( 首次启动一定要格式化集群 hadoop namenode -format)
单节点启动
#启动namenode hadoop-daemon.sh start namenode #启动secondarynamenode hadoop-daemon.sh start secondarynamenode #启动datanode hadoop-daemon.sh start datanode #启动Yarn主节点 yarn-daemon.sh start resourcemanager #启动Yarn子节点 yarn-daemon.sh start nodemanager
启动全部节点的全部服务start-all.sh