Flume简介
- Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。
- Flume基于流式架构,容错性强,也很灵活简单。
- Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。
Flume角色
- Source
用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。 - Channel
用于桥接Sources和Sinks,类似于一个队列。 - Sink
从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)。 - Event
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。
Flume传输过程
source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。
部署Flume及使用
- 文件配置
相当简单,只需要将下载好的flume解压并配置flume-env.sh中的JAVA_HOME即可 - 案例
创建flume-agent配置文件flume-agent.conf
# example.conf: A single-node Flume configuration # 各个角色的别名,a1表示agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # agent的基本配置 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # sink的基本配置 a1.sinks.k1.type = logger # channel的基本配置 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # 让agent的source与sink建立连接 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1查看端口是否已经被占用
$ sudo netstat -tunlp | grep 44444
然后开启flume监听端口
$ bin/flume-ng agent --conf conf/ --name a1 --conf-file flume-agent.conf -Dflume.root.logger==INFO,console
flume命令 配置文件路径 agent别名 job执行的配置文件路径 java参数,表示输出级别以及运行环境
3.使用telnet工具进行测试(yum install telnet)
$ telnet localhost 44444,在终端中输入内容,可以在flume运行的agent中看到输出结果