描述hadoop2.0比hadoop1.0的优势
https://blog.csdn.net/WYpersist/article/details/79951569
Hadoop命令
1. 杀死一个job
kill -9 进程id
2. 删除hdfs删的/tmp/bbb目录
hadoop dfs -rm r /tmp/bbb
3. 加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令
https://blog.csdn.net/iwantknowwhat/article/details/50822316
Hadoop的namenode宕机怎么办
https://blog.csdn.net/wypersist/article/details/79953718
编程题
还有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取某天出访百度次数最多的那个IP
Mapreduce数据倾斜原因和解决方案
https://blog.csdn.net/wypersist/article/details/79797075
Spark 任务执行速度倾斜问题解决方案
https://blog.csdn.net/lsshlsw/article/details/52025949
简述Hbase 常见的性能瓶颈和优化方法
https://blog.csdn.net/wypersist/article/details/79954490
简述yarn中应用程序的运行的基本流程
https://www.cnblogs.com/yurunmiao/p/4494582.html
步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster、用户程序等。
步骤2:ResourceManager为该应用程序分配第一个Container,并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应 用程序的运行状态,然后它将为各个任务申请资源,并监控他的运行状态,直到运行结束,即要重复步骤4-7。
步骤4:ApplicationMaster采用轮询的方式通过RPC协议找ResourceManager申请和领取资源。
步骤5:一旦Application申请到资源后,便与对应的NodeManager通信,要求启动任务。
步骤6:NodeManager为任务设置好运行环境,包括环境变量、JAR包、二进制程序等,然后将任务启动命令写到另一个脚本中,并通过运行该脚本启动任务。
步骤7:各个任务通过RPC协议向ApplicationMaster汇报自己的状态和进度,ApplicationMaster随时掌握各个 任务的运行状态,从而可以再任务失败时重新启动任务。在应用程序运行过程中,用户可以随时通过RPC协议
ApplicationMaster查询应用程序的当前运行状态。
步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。
列举redis常见性能问题和解决方案
https://blog.csdn.net/tanga842428/article/details/52764608
简述JVM原理、调优
JVM知识问答集锦
https://blog.csdn.net/GV7lZB0y87u7C/article/details/79662413
Zookeeper集群中服务器之间是如何通信的
Follower与leader之间的通信主要是因为Follower接收到像(create, delete, setData, setACL, createSession, closeSession, sync)这样一些需要让leader来协调最终结果的命令,将会导致Follower与leader之间产生通信。由于leader与Follower之间的关系式一对多的关系,非常适合client/server模式,因此他们之间是采用c/s模式,由leader创建一个socket server,监听各Follower的协调请求。