hadoop 主要是分name节点 辅助name节点 数据节点1 数据节点2 数据节点n。
name节点就是用记录文件放在哪个数据节点上,数据节点就是用来存储实际数据的。就是指针和内存的关系。
下载好hadoop后编辑xx/hadoop-2.7.3/etc/hadoop文件夹的配置文件。
core-site.xml配置name节点的地址。
hdfs-site.xml配置的数据的备份情况,也就是说一个数据的存储会在几个节点上体现。
mapred-site.xml配置mapreduce依赖的资源框架。
yarn-site.xml配置的数据yarn所在地址
slaves配置的是数据节点的地址
配置好以后,把这些配置文件scp到其他节点配置中。
以上是配置,接下来是启动
hadoop namenode -format 先格式化hadoop的空间
然后用jps查询是否有启动java进程,接下来可以启动
start-dfs.sh start-yarn.sh 或者是start-all.sh
然后再用jps查询,得到的结果如下:
4099 SecondaryNameNode
4359 Jps
4283 ResourceManager
3918 NameNode
远程到数据节点上 jps命令如下:
3657 Jps
3513 NodeManager
3386 DataNode
hadoop fs -mkdir -p /usr/test 这个是在hadoop文件体系中创建文件夹。-p是指test的父级目录也一起创建。
hadoop fs -ls / 查询 ,可得到下面内容
drwxr-xr-x - ubuntu supergroup 0 2017-03-25 19:17 /usr
hadoop fs -ls -R / 查询 ,可得到下面内容 -R是递归的意思
drwxr-xr-x - ubuntu supergroup 0 2017-03-25 19:17 /usr
drwxr-xr-x - ubuntu supergroup 0 2017-03-25 19:17 /usr/test