flume配置文件（跟踪文件夹）

本文链接： https://blog.csdn.net/lucasmaluping/article/details/102365073

配置文件：配置文件的在文章中说明

配置三大组件：sources、sinks、channels

sources：

sinks：

channels：

其中ag1为整体配置信息的名字，可以配置多个如：ag2.sources ag3.....

#spooldir：flume中自带的读取目录的source，只要出现新文件就会被读走
#定义三大组件的名称
ag1.sources = source1
ag1.sinks = sink1
ag1.channels = channel1

# 配置source组件
ag1.sources.source1.type = spooldir    #官网flume.apache.org
ag1.sources.source1.spoolDir = /root/log/ #具体的目录
ag1.sources.source1.fileSuffix=.FINISHED   #文件后缀，文件内容被读走了就改成这样了


# 配置sink组件
ag1.sinks.sink1.type = hdfs
ag1.sinks.sink1.hdfs.path =hdfs://hdp-1:9000/access_log/%y-%m-%d/%H-%M
ag1.sinks.sink1.hdfs.filePrefix = app_log
ag1.sinks.sink1.hdfs.fileSuffix = .log
ag1.sinks.sink1.hdfs.batchSize= 100
ag1.sinks.sink1.hdfs.fileType = DataStream
ag1.sinks.sink1.hdfs.writeFormat =Text

## roll：滚动切换：控制写文件的切换规则
ag1.sinks.sink1.hdfs.rollSize = 512000    ## 按文件体积（字节）来切   500k
							#需要讲的：hdfs.rollInterval  hdfs.rollCount   hdfs.writeFormat  hdfs.fileType
ag1.sinks.sink1.hdfs.rollCount = 1000000  ## 按event条数切
ag1.sinks.sink1.hdfs.rollInterval = 60    ## 按时间间隔切换文件     三个，哪个满足就用哪个

## 控制生成目录的规则    目录多久切一次
ag1.sinks.sink1.hdfs.round = true
ag1.sinks.sink1.hdfs.roundValue = 10    #多久切一次  10分钟
ag1.sinks.sink1.hdfs.roundUnit = minute   #单位

ag1.sinks.sink1.hdfs.useLocalTimeStamp = true

# channel组件配置
ag1.channels.channel1.type = memory
ag1.channels.channel1.capacity = 500000   ## event条数  在通道中暂存的最大数量  数量要大于sink的batchSize的100条
ag1.channels.channel1.transactionCapacity = 600  ##flume事务控制所需要的缓存容量600条event   多少条记录归拢到一个事务中

# 绑定source、channel和sink之间的连接
ag1.sources.source1.channels = channel1
ag1.sinks.sink1.channel = channel1

sources的说明及配置方法在官方文档

flume.apache.org

在User Guide中有配置说明

必须配置的是：

通过将要摄取的文件放置到磁盘上的一个假脱机目录中，该源允许您摄取数据。这个源代码将监视新文件的指定目录，并在新文件出现时解析它们。事件解析逻辑是可插拔的。将给定的文件完全读入通道后，默认情况下通过重命名该文件来表示完成，或者可以删除该文件，或者使用trackerDir跟踪已处理的文件。

sinks

rollInterval: 间隔时间30秒

rollSize：按文件大小切割，默认1024byte为1k，有点小，一般修改为512M切一次，切出4个block

rollCount:

batchSize: 一个event是一条数据，默认100个event（条）往hdfs中写一次，一般一次写个十几兆写一次

fileType：往hdfs中写成什么文件类型，默认是SequenceFile,序列化文件。DataStream：读文件的时候是什么类型，保存就保存什么类型。CompressedStream:压缩格式的文件，将来读文件就要用对应压缩的解压方法(codeC压缩算法)

File format: currently SequenceFile, DataStream or CompressedStream (1)DataStream will not compress output file and please don’t set codeC (2)CompressedStream requires set hdfs.codeC with an available codeC

writeFormat

a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S:  目录可以是活的

channel：

capacity: 容量，默认100条

transactionCapacity: 事务容量，默认100条（为什么要用事务，如从event中取数据，如果失败，可以回滚）

启动方式：

启动一个agent程序 -C 自己的配置文件在哪里 -f 采集配置 -n agent的名字 -Dflume.root.logger=INFO.console JVM的环境参数 INFO.console控制台
启动命令：./flume-ng agent -C ../conf/ -f ../dir-hdfs.conf -n ag1 -Dflume.root.logger=INFO.console

-Dflume.root.logger=INFO.console：打印到控制台

-C ../conf/ ：配置信息

-f ../dir-hdfs.conf ：配置文件的位置

-n ag1 : agent的名字

flume配置文件（跟踪文件夹）

猜你喜欢