每天汇总----10.18

1.hdfs 伪分布式哪三个进程,简写  NN DN SNN

2.yarn伪分布式哪两个进程,简写 RM NM

3.简述 nn做什么的?   管理文件系统的命名空间,维护文件系统的目录树的,定期接受来自DN的blockmap

4.简述 snn是做什么的那幅图,是否能够描述清楚?  定期来去NN上的fsimage和editlog合并成新的fsimage.ckpt并返沪给NN

5.一个文件130M,block设为128M,系统设置3副本,请问多少块,多少存储   6个block,存储390M

6.拓展题:  所以,假如都是5M  10M 20M这些小文件,我们是不是为了避免nn节点内存的压力,要不合并这些小文件,要不就将冷数据迁移到比如oss,s3存储上      是的,NN上不适合存储大量的小文件,无论小文件还是大文件都将占用相同的NN资源,小文件太多了会对NN造成很大的压力

7.假如让你找配置参数,你会在官网找吗    区分是***-env.sh文件中配置的还是在xml文件中配置的,然后再去官网中的doc中查找

8.简述你们对shuffle的理解  通俗一点解释叫洗牌,不同节点上的数据进行重新分配

9.简述什么是数据本地化  DN和NM部署在同一个节点上,是的计算和数据存储不同的网络io来传输

10.简述mr提交到yarn上    第一阶段是client将作业提交到yarn上面,yarn为其分配contanier和开启ApplicationMaster程序,第二阶段是ApplicationMaster申请资源并分配tasks到相应的container,同时监控他们

11.hive数据分为 元数据和数据,那么你们课程中,分别存储在哪里    mysql hdfs,hive上的元数据一般存储在关系型数据库当中

猜你喜欢

转载自blog.csdn.net/weixin_39702831/article/details/83141013