[大数据面试]-- 6.Hadoop 题目

============================================================================================

1、集群规模、配置怎样?

2、namenode端口

3、Hadoop的集群管理模式

4、如何更改输出文件的名称

5、Mapereduce是多进程模式、Spark是多线程模式(task用完资源就释放,启动task不费时间)

6、hdfs-default.xml:修改存储阈值的参数

7、MapReduce调优

8、yarn的组件:ResourceManager、NodeManager、Container、ApplicationMaster

9、HDFS文件系统的优缺点

HDFS优点:

  • 数据冗余(多副本存储)、硬件容错
  • 处理流式的数据访问,一次写入多次读取
  • 适合存储大文件
  • 可以构建在廉价机器上,节省成本

HDFS缺点:

  • 不适合低延迟数据访问
  • 无法高效存储大量小文件:因为即便只有1M的文件,也是拥有自己的元数据的。所以如果存在大量的小文件,那么相对应的元数据需要占用的存储空间就越大,元数据过多会给NameNode增加压力

发布了508 篇原创文章 · 获赞 613 · 访问量 201万+

猜你喜欢

转载自blog.csdn.net/high2011/article/details/98522960