文章目录

HDFS 概述及 Shell 操作

一、HDFS 概述

1.1 定义
1.2 HDFS 优缺点
1.3 HDFS 架构组成
1.4 HDFS 文件块的大小

二、HDFS 的 Shell 操作

2.1 基本语法
2.2 命令列表
2.3 常用命令练习

2.3.1 准备工作
2.3.2 上传操作
2.3.3 下载操作
2.3.4 HDFS 直接操作

HDFS 概述及 Shell 操作

一、HDFS 概述

1.1 定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

1.2 HDFS 优缺点

2.1 优点

高容错性

数据自动保存多个副本。它通过增加副本的形式，提高容错性。
某一个副本丢失以后，它可以自动恢复。
适合处理大数据

数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
文件规模：能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上，通过多副本机制，提高可靠性。

2.2 缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的
无法高效的对大量小文件进行存储。

存储大量小文件的话，它会占用 NameNode 大量的内存来存储文件目录和块信息。这样是不可取的，因为 NameNode 的内存总是有限的；

小文件存储的寻址时间会超过读取时间，它违反了 HDFS 的设计目标
不支持并发写入、文件随机修改。

一个文件只能有一个写，不允许多个线程同时写；

仅支持数据append（追加），不支持文件的随机修改。

1.3 HDFS 架构组成

在这里插入图片描述

1.4 HDFS 文件块的大小

在这里插入图片描述

HDFS 的块设置太小，会增加寻址时间，程序一直在找块的开始位置；
如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢

二、HDFS 的 Shell 操作

2.1 基本语法

hadoop fs 具体命令
hdfs dfs 具体命令

两个是完全相同的。

2.2 命令列表

[xiaoxq@hadoop105 hadoop-3.1.3]$ bin/hadoop fs
[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] [-v] [-x] <path> ...]
	[-expunge]
	[-find <path> ... <expression> ...]
	[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-getfacl [-R] <path>]
	[-getfattr [-R] {-n name | -d} [-e en] <path>]
	[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
	[-head <file>]
	[-help [cmd ...]]
	[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
	[-mkdir [-p] <path> ...]
	[-moveFromLocal <localsrc> ... <dst>]
	[-moveToLocal <src> <localdst>]
	[-mv <src> ... <dst>]
	[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
	[-renameSnapshot <snapshotDir> <oldName> <newName>]
	[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
	[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
	[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
	[-setfattr {-n name [-v value] | -x name} <path>]
	[-setrep [-R] [-w] <rep> <path> ...]
	[-stat [format] <path> ...]
	[-tail [-f] [-s <sleep interval>] <file>]
	[-test -[defsz] <path>]
	[-text [-ignoreCrc] <src> ...]
	[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
	[-touchz <path> ...]
	[-truncate [-w] <length> <path> ...]
	[-usage [cmd ...]]

2.3 常用命令练习

2.3.1 准备工作

（1）启动 Hadoop 集群

[xiaoxq@hadoop105 hadoop-3.1.3]$ sbin/start-dfs.sh
[xiaoxq@hadoop106 hadoop-3.1.3]$ sbin/start-yarn.sh

（2）-help：输出这个命令参数

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -help rm
用于查询相关命令的规定和用法

2.3.2 上传操作

（1）-moveFromLocal：从本地剪切粘贴到HDFS

[xiaoxq@hadoop105 hadoop-3.1.3]$ touch wukong.txt
[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs  -moveFromLocal  ./wukong.txt  /xiyouji/

（2）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去（idea）

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -copyFromLocal bajie.txt /xiyouji/

（3）-appendToFile：追加一个文件到已经存在的文件末尾（常用）

[xiaoxq@hadoop105 hadoop-3.1.3]$ touch saheshang.txt
[xiaoxq@hadoop105 hadoop-3.1.3]$ vim saheshang.txt
输入
大师兄，师傅被妖怪抓走了
[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -appendToFile saheshang.txt /xiyouji/wukong.txt

（4）-put：等同于copyFromLocal（常用）

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -put ./jiabaoyu.txt /hongloumeng/jiafu/

2.3.3 下载操作

（1）-copyToLocal：从HDFS拷贝到本地（idea）

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -copyToLocal /xiyouji/wukong.txt ./test/

（2）-get：等同于copyToLocal，就是从HDFS下载文件到本地（常用）

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -get /xiyouji/wukong.txt ./test/

（3）-getmerge：合并下载多个文件，比如HDFS的目录 /user/xiaoxq/test下有多个文件:log.1, log.2,log.3,…

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -getmerge /xiyouji/* ./xitianqujin.txt

2.3.4 HDFS 直接操作

（1）-ls: 显示目录信息

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -ls /

（2）-mkdir：在HDFS上创建目录

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -mkdir -p /xiyouji

（3）-cat：显示文件内容

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -cat /xiyouji/wukong.txt

（4）-chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -chmod 777 /xiyouji/wukong.txt
[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -chown xiaoxq:xiaoxq /xiyouji/wukong.txt

（5）-cp ：从 HDFS 的一个路径拷贝到 HDFS 的另一个路径

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -cp /xiyouji/wukong.txt /hongloumeng/qitiandasheng.txt

（6）-mv：在HDFS目录中移动文件

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -mv /hongloumeng/qitiandasheng.txt /xiyouji/

（7）-tail：显示一个文件的末尾1kb的数据

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -tail /xiyouji/qitiandasheng.txt

（8）-rm：删除文件或文件夹

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -rm /java/1.txt

（9）-rmdir：删除空目录

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -mkdir /test
[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -rm /test

（10）-du：统计文件夹的大小信息

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -du -s -h /xiyouji/

（11）-setrep：设置 HDFS 中文件的副本数量

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop fs -setrep 10 /xiyouji/bajie.txt

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

Hadoop 之 HDFS(HDFS 概述及 Shell 操作)

文章目录

HDFS 概述及 Shell 操作

一、HDFS 概述

1.1 定义

1.2 HDFS 优缺点

1.3 HDFS 架构组成

1.4 HDFS 文件块的大小

二、HDFS 的 Shell 操作

2.1 基本语法

2.2 命令列表

2.3 常用命令练习

2.3.1 准备工作

2.3.2 上传操作

2.3.3 下载操作

2.3.4 HDFS 直接操作

猜你喜欢

Hadoop 之 HDFS(HDFS 概述 及 Shell 操作)

文章目录

HDFS 概述 及 Shell 操作

一、HDFS 概述

1.1 定义

1.2 HDFS 优缺点

1.3 HDFS 架构组成

1.4 HDFS 文件块的大小

二、HDFS 的 Shell 操作

2.1 基本语法

2.2 命令列表

2.3 常用命令练习

2.3.1 准备工作

2.3.2 上传操作

2.3.3 下载操作

2.3.4 HDFS 直接操作

猜你喜欢

Hadoop 之 HDFS(HDFS 概述及 Shell 操作)

HDFS 概述及 Shell 操作