1.hdfs 伪分布式哪三个进程,简写 NN DN SNN
2.yarn伪分布式哪两个进程,简写 RM NM
3.简述 nn做什么的? 管理文件系统的命名空间,维护文件系统的目录树的,定期接受来自DN的blockmap
4.简述 snn是做什么的那幅图,是否能够描述清楚? 定期来去NN上的fsimage和editlog合并成新的fsimage.ckpt并返沪给NN
5.一个文件130M,block设为128M,系统设置3副本,请问多少块,多少存储 6个block,存储390M
6.拓展题: 所以,假如都是5M 10M 20M这些小文件,我们是不是为了避免nn节点内存的压力,要不合并这些小文件,要不就将冷数据迁移到比如oss,s3存储上 是的,NN上不适合存储大量的小文件,无论小文件还是大文件都将占用相同的NN资源,小文件太多了会对NN造成很大的压力
7.假如让你找配置参数,你会在官网找吗 区分是***-env.sh文件中配置的还是在xml文件中配置的,然后再去官网中的doc中查找
8.简述你们对shuffle的理解 通俗一点解释叫洗牌,不同节点上的数据进行重新分配
9.简述什么是数据本地化 DN和NM部署在同一个节点上,是的计算和数据存储不同的网络io来传输
10.简述mr提交到yarn上 第一阶段是client将作业提交到yarn上面,yarn为其分配contanier和开启ApplicationMaster程序,第二阶段是ApplicationMaster申请资源并分配tasks到相应的container,同时监控他们
11.hive数据分为 元数据和数据,那么你们课程中,分别存储在哪里 mysql hdfs,hive上的元数据一般存储在关系型数据库当中