Flume简介

Flume简介

  1. Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。
  2. Flume基于流式架构,容错性强,也很灵活简单。
  3. Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。

Flume角色

  1. Source
    用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。
  2. Channel
    用于桥接Sources和Sinks,类似于一个队列。
  3. Sink
    从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)。
  4. Event
    传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。

Flume传输过程

source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。

部署Flume及使用

  1. 文件配置
    相当简单,只需要将下载好的flume解压并配置flume-env.sh中的JAVA_HOME即可
  2. 案例
    创建flume-agent配置文件flume-agent.conf
# example.conf: A single-node Flume configuration

# 各个角色的别名,a1表示agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# agent的基本配置
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# sink的基本配置
a1.sinks.k1.type = logger

# channel的基本配置
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 让agent的source与sink建立连接
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
        查看端口是否已经被占用

        $ sudo netstat -tunlp | grep 44444
        然后开启flume监听端口
        $ bin/flume-ng agent --conf conf/ --name a1 --conf-file flume-agent.conf -Dflume.root.logger==INFO,console

                           flume命令   配置文件路径  agent别名  job执行的配置文件路径        java参数,表示输出级别以及运行环境

    3.使用telnet工具进行测试(yum install telnet)
        $ telnet localhost 44444,在终端中输入内容,可以在flume运行的agent中看到输出结果
        

猜你喜欢

转载自blog.csdn.net/liangzelei/article/details/80203240