大数据面试题目第一部分

一 Linux

  1. Linux常用命令
  2. CentOS查看版本的命令
  3. linux 查看端口调用
  4. linux命令 查看内存 磁盘 io 端口 进程
  5. 使用Linux命令查询file1里面空行的所在行号
  6. 有文件chengji.txt内容如下:
    张三 40
    李四 50
    王五 60
    请使用Linux命令计算第二列的和并输出
  7. 在Linux环境下有文件/home/dim_city.txt如何加载dim_city外部表中,HDFS路径/user/dim/dim_city
  8. Shell脚本里如何检查文件是否存在,如果不存在该如何处理?Shell里如何检查一个变量是否是空?
  9. Shell脚本里如何统计一个目录下(包含子目录)有多少个java文件?如何取得每一个文件的名称(不包含路径)
  10. Shell脚本里如何检查文件是否存在,如果不存在该如何处理?Shell里如何检查一个变量是否是空?
  11. Shell脚本里如何统计一个目录下(包含子目录)有多少个java文件?如何取得每一个文件的名称(不包含路径)

二 Hadoop入门

  1. 简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。
  2. Hadoop中需要哪些配置文件,其作用是什么?
  3. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?
  4. 简述Hadoop的几个默认端口及其含义。
    三 Hadoop的HDFS
  5. HDFS的存储机制(读写流程)。
  6. SecondaryNameNode 工作机制。
  7. NameNode与SecondaryNameNode 的区别与联系?
  8. 服役新数据节点和退役旧节点步骤
  9. NameNode挂了怎么办?
    四 Hadoop的MapReduce
  10. 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
  11. FileInputFormat切片机制
  12. 自定义InputFormat流程
  13. 如何决定一个job的map和reduce的数量?
  14. Maptask的个数由什么决定?
  15. MapTask工作机制
  16. ReduceTask工作机制
  17. 请描述mapReduce有几种排序及排序发生的阶段
  18. 请描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段
  19. 请描述mapReduce中combiner的作用是什么,一般使用情景,哪些情况不需要,及和reduce的区别?
  20. Mapreduce的工作原理,请举例子说明mapreduce是怎么运行的?
  21. 如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
  22. MapReduce 怎么实现 TopN?
  23. 有可能使 Hadoop 任务输出到多个目录中么?如果可以,怎么做?
  24. 简述hadoop实现join的几种方法及每种方法的实现方法
  25. 请简述hadoop怎样实现二级排序
  26. 参考下面的MR系统的场景:
    –hdfs块的大小为64MB
    –输入类型为FileInputFormat
    –有三个文件的大小分别是:64KB 65MB 127MB
    Hadoop框架会把这些文件拆分为多少块?
  27. Hadoop中RecordReader的作用是什么?
  28. 给你一个1G的数据文件。分别有id,name,mark,source四个字段,按照mark分组,id排序,手写一个MapReduce?其中有几个Mapper?
    五 Hadoop的Yarn
  29. 简述Hadoop1与Hadoop2 的架构异同。
  30. 为什么会产生yarn,它解决了什么问题,有什么优势?
  31. MR作用提交全过程
  32. HDFS的数据压缩算法?
  33. Hadoop的调度器总结。
  34. mapreduce推测执行算法及原理。
    六 Hadoop优化
  35. mapreduce 跑的慢的原因?
  36. mapreduce 优化方法。
  37. HDFS小文件优化方法。
  38. MapReduce怎么解决数据均衡问题,如何确定分区号?
  39. Hadoop中job和Tasks之间的区别是什么?
  40. MR数据倾斜?

猜你喜欢

转载自blog.csdn.net/wwg18895736195/article/details/83476165