一 Linux
- Linux常用命令
- CentOS查看版本的命令
- linux 查看端口调用
- linux命令 查看内存 磁盘 io 端口 进程
- 使用Linux命令查询file1里面空行的所在行号
- 有文件chengji.txt内容如下:
张三 40
李四 50
王五 60
请使用Linux命令计算第二列的和并输出 - 在Linux环境下有文件/home/dim_city.txt如何加载dim_city外部表中,HDFS路径/user/dim/dim_city
- Shell脚本里如何检查文件是否存在,如果不存在该如何处理?Shell里如何检查一个变量是否是空?
- Shell脚本里如何统计一个目录下(包含子目录)有多少个java文件?如何取得每一个文件的名称(不包含路径)
- Shell脚本里如何检查文件是否存在,如果不存在该如何处理?Shell里如何检查一个变量是否是空?
- Shell脚本里如何统计一个目录下(包含子目录)有多少个java文件?如何取得每一个文件的名称(不包含路径)
二 Hadoop入门
- 简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。
- Hadoop中需要哪些配置文件,其作用是什么?
- 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?
- 简述Hadoop的几个默认端口及其含义。
三 Hadoop的HDFS - HDFS的存储机制(读写流程)。
- SecondaryNameNode 工作机制。
- NameNode与SecondaryNameNode 的区别与联系?
- 服役新数据节点和退役旧节点步骤
- NameNode挂了怎么办?
四 Hadoop的MapReduce - 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
- FileInputFormat切片机制
- 自定义InputFormat流程
- 如何决定一个job的map和reduce的数量?
- Maptask的个数由什么决定?
- MapTask工作机制
- ReduceTask工作机制
- 请描述mapReduce有几种排序及排序发生的阶段
- 请描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段
- 请描述mapReduce中combiner的作用是什么,一般使用情景,哪些情况不需要,及和reduce的区别?
- Mapreduce的工作原理,请举例子说明mapreduce是怎么运行的?
- 如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
- MapReduce 怎么实现 TopN?
- 有可能使 Hadoop 任务输出到多个目录中么?如果可以,怎么做?
- 简述hadoop实现join的几种方法及每种方法的实现方法
- 请简述hadoop怎样实现二级排序
- 参考下面的MR系统的场景:
–hdfs块的大小为64MB
–输入类型为FileInputFormat
–有三个文件的大小分别是:64KB 65MB 127MB
Hadoop框架会把这些文件拆分为多少块? - Hadoop中RecordReader的作用是什么?
- 给你一个1G的数据文件。分别有id,name,mark,source四个字段,按照mark分组,id排序,手写一个MapReduce?其中有几个Mapper?
五 Hadoop的Yarn - 简述Hadoop1与Hadoop2 的架构异同。
- 为什么会产生yarn,它解决了什么问题,有什么优势?
- MR作用提交全过程
- HDFS的数据压缩算法?
- Hadoop的调度器总结。
- mapreduce推测执行算法及原理。
六 Hadoop优化 - mapreduce 跑的慢的原因?
- mapreduce 优化方法。
- HDFS小文件优化方法。
- MapReduce怎么解决数据均衡问题,如何确定分区号?
- Hadoop中job和Tasks之间的区别是什么?
- MR数据倾斜?