============================================================================================
1、集群规模、配置怎样?
2、namenode端口
3、Hadoop的集群管理模式
4、如何更改输出文件的名称
5、Mapereduce是多进程模式、Spark是多线程模式(task用完资源就释放,启动task不费时间)
6、hdfs-default.xml:修改存储阈值的参数
7、MapReduce调优
8、yarn的组件:ResourceManager、NodeManager、Container、ApplicationMaster
9、HDFS文件系统的优缺点
HDFS优点:
- 数据冗余(多副本存储)、硬件容错
- 处理流式的数据访问,一次写入多次读取
- 适合存储大文件
- 可以构建在廉价机器上,节省成本
HDFS缺点:
- 不适合低延迟数据访问
- 无法高效存储大量小文件:因为即便只有1M的文件,也是拥有自己的元数据的。所以如果存在大量的小文件,那么相对应的元数据需要占用的存储空间就越大,元数据过多会给NameNode增加压力