1.谈谈如何理解shuffle 可以理解为洗牌,就是将各个节点上的数据进行重新分配的过程
2.简述 mr提交到yarn的工作流程 一阶段:client想RM提交作业,二阶段:RM处理用户请求,分配资源
3.yarn哪两个进程 ResourceManager和NodeManager
4.yarn的资源调优参数,是否会配置? 包括hadoop-env.sh,yarn-env.sh等
5.谈谈你对jps命令的理解 jps是显示当前所有java进程pid的命令,/tmp/hsperfdata_{userName}/
6.谈谈你们对pid的理解 /tmp目录下的pid文件用于储存个进程的pid号,如果非正常删除不会对进程的运行有影响,但在重启进程时会造成进程混乱,所以最后不要配置在/tmp目录下
7.hdfs读流程是output吗 不是读流程使用的java对象是FSDataInputStream
8.一个文件160M,64M的块大小,三个副本,请问块多少,实际存储多少 9个块,实际存储480M
9.pid文件人为删除,会影响服务正常运行吗?那么会影响什么? 不会,但影响关闭和重启进程
10.hdfs dfs等价于什么命令 hadoop fs
11.默认的hdfs,yarn web的端口号多少 50070 8088
12.假如让你们修改默认的端口号,你们想想会不会去官网网站的默认配置文件找呢??? 去到官网,点击documentation,在左侧栏目的最下端有各组件的默认配置文件,从里面找相关的参数修改
13.hdfs和yarn进程的内存大小 在哪个文件配置 4G和3G,hadoop-env.sh和yarn-env.sh
14.谈谈什么是数据本地化 DN和NM在同一个物理节点上
15.假如NN节点进入安全模式,你们应该觉得怎么做 hdfsadmin leave,如果不成果就去看日志
16.副本放置策略,假如提交的DN节点,那么第一个副本存哪里 就在提交的各DN上
17.hadoop家目录里,怎样找到example jar包 find ./ -name '*examples*.jar'
18.你们觉得 命令帮助怎么看? 先看usage,再看参数