选项 | 类型 | 默认值 | 描述 |
dfs.block.size | int | 64M | 有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块 |
dfs.replication | int | 3 | 存放数据文件的份数 |
选项 | 类型 | 默认值 | 描述 |
io.sort.mb | int | 100 | 缓存map中间结果的buffer大小(MB) |
io.sort.record.percent | float | 0.05 | io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据 |
io.sort.spill.percent | float | 0.8 | map开始做spill操作的阀值 |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
min.num.spill.for.combine | int | 3 | combine函数运行的最小spill数 |
mapred.compress.map.output | boolean | FALSE | map中间结果是否采用压缩 |
mapred.map.output.compression.codec | class name | org.apache.hadoop.io.compress.DefaultCodec | map中间结果的压缩方式 |
mapred.tasktracker.map.tasks.maximum | int | 2 | 一个tasktracker最多可以同时运行的map任务数量 |
mapred.map.tasks | int | 2 | 一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum |
选项 | 类型 | 默认值 | 描述 |
mapred.reduce.parallel.copies | int | 5 | 每个reduce并行下载map结果的最大线程数 |
mapred.reduce.copy.backoff | int | 300 | reduce下载线程最大等待时间(insec) |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
mapred.job.shuffle.input.buffer.percent | float | 0.7 | 用来缓存shuffle数据的reduce task heap百分比 |
mapred.job.shuffle.merge.percent | float | 0.66 | 缓存的内存中多少百分比后开始做merge操作 |
mapred.job.reduce.input.buffer.percent | float | 0 | sort完成后reduce计算阶段用来缓存数据的百分比 |
mapred.tasktracker.reduce.tasks.maximum | int | 2 | 一个task tracker最多可以同时运行的reduce任务数量 |
mapred.reduce.tasks | int | 1 | 一个Job会使用task tracker的reduce任务槽数量 |
mapred.child.java.opts | int | 200M | 配置每个map或reduce使用的内存数量 |
修改项 | 修改值 | 路径 | 作用 |
HADOOP_OPTS | HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true" | bin/hadoop | disable ipv6 |
Job的调度模式 | FIFO | ||
Fair |
hadoop tunning
猜你喜欢
转载自arenzhj.iteye.com/blog/2200787
今日推荐
周排行