Hadoop-3.X优化参数

1、hdfs-site.xml

# 副本数
dfs.replication=2
# 数据块大小
dfs.blocksize=134217728
# 磁盘选择策略：DataNode 将会使用 volume 选择策略来为这个块选择存储的地方
dfs.datanode.fsdataset.volume.choosing.policy=org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy
# 配置各个磁盘的均衡阈值：在此节点的所有数据存储的目录中，找一个占用最大的，找一个占用最小的，如果在两者之差在10G的范围内，那么块分配的方式是轮询
dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold=10737418240
# 配置block 块存储的偏好，默认值是0.75f，这个值越接近1，存储到剩余磁盘空间大的磁盘上的块越多，建议使用默认值
dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction=0.75f
# 多数据存储目录
dfs.datanode.data.dir=/dfs/data1,/dfs/data2,[SSD]/dfs/data3,[SSD]/dfs/data4
# 开启HDFS的短路本地读配置
dfs.client.read.shortcircuit=true
dfs.domain.socket.path=/var/lib/hadoop-hdfs/dn_socket
# 延迟blockreport次数
dfs.blockreport.incremental.intervalMsec=300
# 增大datanode文件并发传输大小
dfs.datanode.max.transfer.threads=16384
# 增加datanode连接namenode的rpc请求线程数量
# python -c 'import math ; print int(math.log(25) * 20)'
dfs.datanode.handler.count=64
# 配置为网卡带宽的一半；机器的网卡和交换机的带宽有限，可适当降低该值
dfs.datanode.balance.bandwidthPerSec=6291456
# 避免读取"过时"
dfs.namenode.avoid.read.stale.datanode=true
# 避免写入失效
dfs.namenode.avoid.write.stale.datanode=true
# 防止磁盘空间写满导致HDFS异常
dfs.datanode.du.reserved=10737418240

2、mapred-site.xml

map阶段

# 一个 Map Task 可使用的内存，默认为 1024mb
mapreduce.map.memory.mb=2048
# 每个 Map Task 可用的最多 cpu core 数目，默认值1
mapreduce.map.cpu.vcores=1
# Map Task 的 JVM 参数，默认值1024
mapreduce.map.java.opts=-Xmx409m
# map输出结果是否压缩：本质是CPU换I/O，大部分job的CPU都不是瓶颈，采用压缩一般来说是有效果的
# 基本原则：运算密集型的job，少用压缩；IO密集型的job，多用压缩
mapreduce.map.output.compress=true
# map输出结果压缩算法：bzip2、lzo可切分
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.lzo.lzoCode

reduce阶段

# hive自动判定reduce数量，默认值1
mapreduce.job.reduces = -1
# 合并文件个数，默认10
mapreduce.task.io.sort.factor=100
# reduce task分配的cpu核数，默认是1，调整到2-4个cpu
mapreduce.reduce.cpu.vcores=2
# 每个ReduceTask的内存，默认是1024MB
mapreduce.reduce.memory.mb=4096
# Reduce Task 的 JVM 参数
mapreduce.reduce.java.opts=-Xmx819m
# job输出结果是否压缩
mapreduce.output.fileoutputformat.compress
mapreduce.output.fileoutputformat.compress.type
mapreduce.output.fileoutputformat.compress.codec

reduce shuffle阶段

# shuffle的环形缓冲区大小，默认100m
mapreduce.task.io.sort.mb=256
# 环形缓冲区溢出的阈值，默认80%
mapreduce.map.sort.spill.percent=0.8
# reduce shuffle阶段并行传输数据的数量，默认值5
# map task有100个，reduce有5个，则平均每个reduce拉去20个map task
mapreduce.reduce.shuffle.parallelcopies=

容错相关参数

# 每个 Map Task 最大重试次数，一旦重试参数超过该值，则认为 Map Task 运行失败，默认值：4。
mapreduce.map.maxattempts
# 每个 Reduce Task最大重试次数，一旦重试参数超过该值，则认为 Map Task 运行失败，默认值：4。
mapreduce.reduce.maxattempts
# 当失败的 Map Task 失败比例超过该值，整个作业则失败，默认值为 0
# 如果你的应用程序允许丢弃部分输入数据，则该该值设为一个大于 0 的值，比如 5，表示如果有低于 5%的 Map Task 失败，整个作业扔认为成功。
mapreduce.map.failures.maxpercent
# 当失败的 Reduce Task 失败比例超过该值为，整个作业则失败，默认值为 0
mapreduce.reduce.failures.maxpercent
# 如果一个 task 在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该 task 处于 block 状态，可能是临时卡住，也许永远会卡住。
为了防止因为用户程序永远 block 不退出，则强制设置了一个超时时间（单位毫秒），默认是 600000（10分钟），值为 0 将禁用超时
mapreduce.task.timeout

效率跟稳定性参数

# 是否为 Map Task 打开推测执行机制，默认为 true, 如果为 true，则可以并行执行一些 Map 任务的多个实例。
mapreduce.map.speculative
# 是否为 Reduce Task 打开推测执行机制，默认为 true
mapreduce.reduce.speculative
# FileInputFormat 做切片时最小切片大小，默认 1
mapreduce.input.fileinputformat.split.minsize
# FileInputFormat 做切片时最大切片大小
mapreduce.input.fileinputformat.split.maxsize

推测执行机制（Speculative Execution）：它根据一定的法则推测出"拖后腿"的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

3、yarn-sit.xml

# 表示该节点上 YARN 可使用的物理内存总量，默认是 8192MB
yarn.nodemanager.resource.memory-mb 
# RM中每个容器请求的最小配置，以 MB 为单位，默认1024MB
yarn.scheduler.minimum-allocation-mb
# RM 中每个容器请求的最大分配，默认 8192MB
yarn.scheduler.maximum-allocation-mb
# 虚拟内存率，默认2.1
yarn.nodemanager.vmem-pmem-ratio 

# 该节点服务器上YARN可以使用的虚拟的CPU个数，推荐配置与核心个数相同；机器性能较好，可以配置为物理核数的2倍
yarn.nodemanager.resource.cpu-vcores
# 单个任务最小可以申请的虚拟核心数，默认为1
yarn.scheduler.minimum-allocation-vcores
# 单个任务最大可以申请的虚拟核数，默认为4
yarn.scheduler.maximum-allocation-vcores

4、core-sit.xml

# 默认值： /tmp
# 说明： 尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果# 服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
hadoop.tmp.dir

# 默认值： 0
# 说明： 这个是开启hdfs文件删除自动转移到垃圾箱的选项，值为垃圾箱文件清除时间。一般开启这个会比较好，以# 防错误删除重要文件。单位是分钟
fs.trash.interval

# 默认值：4096
# 说明：SequenceFiles在读写中可以使用的缓存大小，可减少 I/O 次数。在大型的 Hadoop cluster，建议可设定为 65536 到 131072。
io.file.buffer.size

1、hdfs-site.xml

2、mapred-site.xml

3、yarn-sit.xml

4、core-sit.xml

猜你喜欢