#MapReduce业务常见故障 #大数据 #生产环境真实案例 #MapReduce #批计算 #离线业务 #整理 #经验总结
说明:此篇总结MapReduce业务常见故障案例处理方案 结合自身经历 总结不易 +关注 +收藏 欢迎留言
更多专题(详见):MapReduce计算引擎详解 --项目优化(指导书)
MapReduce任务如何输出压缩文件
问题
MapReduce任务如何让其输出的压缩文件?
解决方法
-
当前Yarn支持以下几种压缩格式:
org.apache.hadoop.io.compress.BZip2Codec org.apache.hadoop.io.compress.Lz4Codec org.apache.hadoop.io.compress.DeflateCodec org.apache.hadoop.io.compress.SnappyCodec org.apache.hadoop.io.compress.GzipCodec
-
gz压缩为例:通过在客户端代码或者mapred-sit.xml中指定如下参数可以让MapReduce任务输出为gz压缩:
mapreduce.output.fileoutputformat.compress=true mapreduce.output.fileoutputformat.compress.type=BLOCK mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec
-
可以仅配置map的输出是否为压缩文件:
mapreduce.map.output.compress=true
mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.GzipCodec
最后
谢谢大家 @500佰