完全分布式集群调用hdfs

调用集群hdfs

(1)上传文件到集群
上传小文件

hdfs dfs -mkdir -p /user/dev1/input
hdfs dfs -put wcinput/words.txt /user/dev1/input

上传大文件

bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/dev1/input

(2)上传文件后查看文件存放在什么位置

如何查找出数据块具体存放在datanode的哪个目录下?
我们可以使用find指令进行查找

sudo find  /opt/module/  -name blk_*

(a)查看HDFS文件存储路径

pwd

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0
(b)查看HDFS在磁盘存储文件内容

 cat blk_1073741825

(3)拼接

如何验证当前的几个blk文件就是hadoop-2.7.2.tar.gz的数据块?

可以将几个数据块的数据都写入到一个临时文件tmp.file,然后下载解压

 cat blk_1073741836>>tmp.file
 cat blk_1073741837>>tmp.file
 tar -zxvf tmp.file

(4)下载

bin/hadoop fs -get /user/dev1/input/hadoop-2.7.2.tar.gz ./

集群启动/停止方式总结

  1. 各个服务组件逐一启动/停止
    (1)分别启动/停止HDFS组件
hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode
(2)启动/停止YARN
yarn-daemon.sh  start / stop  resourcemanager / nodemanager
  1. 各个模块分开启动/停止(配置ssh是前提)常用
    (1)整体启动/停止HDFS
start-dfs.sh   /  stop-dfs.sh

(2)整体启动/停止YARN

start-yarn.sh  /  stop-yarn.sh

猜你喜欢

转载自blog.csdn.net/u013621398/article/details/114832744