1.优化 sink hdfs 类型
hdfs上的文件一般数据文件大小要大,而且文件数量是要少,所以可以解决flume文件数量多,文件大小太小的问题。
hdfs.rollInterval = 600 (这个地方最好还是设置一个时间)
hdfs.rollSize = 1048576
hdfs.rollCount = 0
hdfs.minBlockReplicas = 1 (这个不设置的话,上面的参数有可能不会生效)
2.在hdfs文件上设置时间格式分层 年月日/时 每小时生成一个文件
hdfs.useLocalTimeStamp = true
hdfs.round = true
hdfs.roundValue = 1
hdfs.roundUnit = hour