调用集群hdfs
(1)上传文件到集群
上传小文件
hdfs dfs -mkdir -p /user/dev1/input
hdfs dfs -put wcinput/words.txt /user/dev1/input
上传大文件
bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/dev1/input
(2)上传文件后查看文件存放在什么位置
如何查找出数据块具体存放在datanode的哪个目录下?
我们可以使用find指令进行查找
sudo find /opt/module/ -name blk_*
(a)查看HDFS文件存储路径
pwd
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0
(b)查看HDFS在磁盘存储文件内容
cat blk_1073741825
(3)拼接
如何验证当前的几个blk文件就是hadoop-2.7.2.tar.gz的数据块?
可以将几个数据块的数据都写入到一个临时文件tmp.file,然后下载解压
cat blk_1073741836>>tmp.file
cat blk_1073741837>>tmp.file
tar -zxvf tmp.file
(4)下载
bin/hadoop fs -get /user/dev1/input/hadoop-2.7.2.tar.gz ./
集群启动/停止方式总结
- 各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
(2)启动/停止YARN
yarn-daemon.sh start / stop resourcemanager / nodemanager
- 各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
start-dfs.sh / stop-dfs.sh
(2)整体启动/停止YARN
start-yarn.sh / stop-yarn.sh