大数据:面试题收集(一)

描述hadoop2.0hadoop1.0的优势

https://blog.csdn.net/WYpersist/article/details/79951569

Hadoop命令

1. 杀死一个job

kill -9 进程id

2. 删除hdfs删的/tmp/bbb目录

  hadoop dfs -rm r /tmp/bbb

3. 加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令

https://blog.csdn.net/iwantknowwhat/article/details/50822316

Hadoopnamenode宕机怎么办

https://blog.csdn.net/wypersist/article/details/79953718

编程题

还有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取某天出访百度次数最多的那个IP

Mapreduce数据倾斜原因和解决方案

https://blog.csdn.net/wypersist/article/details/79797075

Spark 任务执行速度倾斜问题解决方案

https://blog.csdn.net/lsshlsw/article/details/52025949

简述Hbase 常见的性能瓶颈和优化方法

https://blog.csdn.net/wypersist/article/details/79954490

简述yarn中应用程序的运行的基本流程

https://www.cnblogs.com/yurunmiao/p/4494582.html

步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster、用户程序等。

步骤2ResourceManager为该应用程序分配第一个Container,并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster

步骤3ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应     用程序的运行状态,然后它将为各个任务申请资源,并监控他的运行状态,直到运行结束,即要重复步骤4-7

步骤4ApplicationMaster采用轮询的方式通过RPC协议找ResourceManager申请和领取资源。  

步骤5:一旦Application申请到资源后,便与对应的NodeManager通信,要求启动任务。

步骤6NodeManager为任务设置好运行环境,包括环境变量、JAR包、二进制程序等,然后将任务启动命令写到另一个脚本中,并通过运行该脚本启动任务。

步骤7:各个任务通过RPC协议向ApplicationMaster汇报自己的状态和进度,ApplicationMaster随时掌握各个      任务的运行状态,从而可以再任务失败时重新启动任务。在应用程序运行过程中,用户可以随时通过RPC协议

ApplicationMaster查询应用程序的当前运行状态。

步骤8:应用程序运行完成后,ApplicationMasterResourceManager注销并关闭自己。

列举redis常见性能问题和解决方案

https://blog.csdn.net/tanga842428/article/details/52764608

简述JVM原理、调优

JVM知识问答集锦

https://blog.csdn.net/GV7lZB0y87u7C/article/details/79662413

Zookeeper集群中服务器之间是如何通信的

Followerleader之间的通信主要是因为Follower接收到像(create, delete, setData, setACL, createSession, closeSession, sync)这样一些需要让leader来协调最终结果的命令,将会导致Followerleader之间产生通信。由于leaderFollower之间的关系式一对多的关系,非常适合client/server模式,因此他们之间是采用c/s模式,由leader创建一个socket server,监听各Follower的协调请求。

Zookeeper选举机制

简述一般互联网架构的高可用设计

猜你喜欢

转载自blog.csdn.net/WYpersist/article/details/79969705