项目介绍
Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
数据收集
Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 。Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
三大组件
- Source,从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channal,Flume提供多种数据接收的方式,比如Avro,Thrift,twitter1%等
- Channel,是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memort channel等
- Sink,将数据存储到集中存储器比如Hbase和HDFS,它从channals消费数据(events)并将其传递给目标地. 目标地可能是另一个sink,也可能HDFS,HBase
数据传输
传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位,代表着一个数据流的最小完整单元。Event从Source,流向Channel,再到Sink,本身为一个byte数组,并可携带headers信息。基本流程如下:
Windows下运行
- 到Apache的Flume官网(http://flume.apache.org/download.html)下载apache-flume-1.8.0-bin.tar.gz
- 解压到目录,例如D:\software\apache-flume-1.8.0-bin
- 新建FLUME_HOME变量,填写flume安装目录D:\software\apache-flume-1.8.0-bin
- 编辑系统变量path,追加%FLUME_HOME%\conf和%FLUME_HOME%\bin
- 复制并重命名flume\config目录下的三个文件,并去掉.template后缀
- (如果没有配置JAVA_HOME需要)修改flume下conf文件夹中的flume-env.sh
中的JAVA_HOME,指定jdk安装路径 ,如:export JAVA_HOME=D:\software\java\jdk10 - Win+R输入cmd,进入命令窗口,输入
flume-ng version
到这里就证明环境是ok的。
如果提示以下信息,证明jdk版本不对,或者不支持。推荐用1.8~1.10的64位版本吧。
Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/flume/tools/VersionInfo : Unsupported major.minor version 52.0
测试实例
这里=。=假设数据源为avro ,使用telnet连接source写入数据,产生日志数据输出控制台。
1、在conf文件夹中创建example.conf文件,写入
# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
2、修改log4j日志输出方式,修改confi目录下的flume.root.logger为以下内容
-flume.root.logger=INFO,console
3、 打开cmd,切到conf目录下,输入命令启动flume
flume-ng agent --conf conf --conf-file example.conf --name a1
或者直接CMD输入(推荐这个方式,更为简单粗暴)
flume-ng agent -c D:\software\apache-flume-1.8.0-bin\conf -f D:\software\apache-flume-1.8.0-bin\conf\example.conf -n a1
如果提示这样,那是因为识别不了path设置的conf目录,可以”cd /d 路径”指定一下
Resolve-Path : 找不到路径“C:\Users\zhengk\example.conf”,因为该路径不存在。
所在位置 D:\software\apache-flume-1.8.0-bin\bin\flume-ng.ps1:217 字符: 24
+ $confFile = '"' + (Resolve-Path $confFile).Path + '"'
+ ~~~~~~~~~~~~~~~~~~~~~~
+ CategoryInfo : ObjectNotFound: (C:\Users\zhengk\example.conf:String) [Resolve-Path], ItemNotFoundExcept
ion
+ FullyQualifiedErrorId : PathNotFound,Microsoft.PowerShell.Commands.ResolvePathCommand
如果提示log4j相关内容,也是因为识别不到log4j的配置。或者log4j配置没有改
请运行flume-ng agent -c D:\software\apache-flume-1.8.0-bin\conf -f D:\software\apache-flume-1.8.0-bin\conf\example.conf -n a1这个命令
Running FLUME agent :
class: org.apache.flume.node.Application
arguments: -n a1 -f "D:\software\apache-flume-1.8.0-bin\conf\example.conf"
log4j:WARN No appenders could be found for logger (org.apache.flume.lifecycle.LifecycleSupervisor).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
运行成功
cmd打开
telnet localhost 44444
然后输入一堆测试内容,看到flume控制台不断涌动的文字,证明成功了