MapReduce任务如何输出压缩文件

 #MapReduce业务常见故障 #大数据 #生产环境真实案例 #MapReduce #批计算 #离线业务 #整理 #经验总结

说明:此篇总结MapReduce业务常见故障案例处理方案 结合自身经历 总结不易 +关注 +收藏 欢迎留言

更多专题(详见):MapReduce计算引擎详解 --项目优化(指导书)

MapReduce任务如何输出压缩文件

问题

MapReduce任务如何让其输出的压缩文件?

解决方法

  1. 当前Yarn支持以下几种压缩格式:

    org.apache.hadoop.io.compress.BZip2Codec
    org.apache.hadoop.io.compress.Lz4Codec
    org.apache.hadoop.io.compress.DeflateCodec
    org.apache.hadoop.io.compress.SnappyCodec
    org.apache.hadoop.io.compress.GzipCodec
  2. gz压缩为例:通过在客户端代码或者mapred-sit.xml中指定如下参数可以让MapReduce任务输出为gz压缩:

    mapreduce.output.fileoutputformat.compress=true
    mapreduce.output.fileoutputformat.compress.type=BLOCK
    mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec
  3. 可以仅配置map的输出是否为压缩文件:

           mapreduce.map.output.compress=true
           mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.GzipCodec


最后

谢谢大家 @500佰