Hadoop参数调优

HDFS的参数调优

（1）要注意namenode和datanode的通信，有一个参数可以提升他们通信的顺畅度（即20logN，N为集群大小）。
（2）注意把HDFS的namenode 文件edits（日志文件）和fsimage（镜像文件）配置在不同目录下。可以提升namenode性能
（3）基准测试：测试HDFS的写/读性能

YARN参数调优

问题描述：没有数据倾斜，小文件已经做了合并处理，开启的JVM重用，而且IO没有阻塞，内存用了不到50%。但是还是跑的非常慢，而且数据量洪峰过来时，整个集群都会宕掉。基于这种情况有没有优化方案。

解决办法：

内存利用率不够（资源调度的问题）。这个一般是Yarn的2个配置造成的，单个任务可以申请的最大内存大小，和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。

Hadoop宕机

（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8G）
（2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰期过去数据同步会自动跟上。

HDFS的参数调优

YARN参数调优

Hadoop宕机

猜你喜欢