Windows配置并运行Flume的教程

项目介绍

Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

数据收集

Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 。Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。

三大组件

  • Source,从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channal,Flume提供多种数据接收的方式,比如Avro,Thrift,twitter1%等
  • Channel,是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memort channel等
  • Sink,将数据存储到集中存储器比如Hbase和HDFS,它从channals消费数据(events)并将其传递给目标地. 目标地可能是另一个sink,也可能HDFS,HBase

数据传输

传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位,代表着一个数据流的最小完整单元。Event从Source,流向Channel,再到Sink,本身为一个byte数组,并可携带headers信息。基本流程如下:

Windows下运行

  1. 到Apache的Flume官网(http://flume.apache.org/download.html)下载apache-flume-1.8.0-bin.tar.gz
  2. 解压到目录,例如D:\software\apache-flume-1.8.0-bin
  3. 新建FLUME_HOME变量,填写flume安装目录D:\software\apache-flume-1.8.0-bin
  4. 编辑系统变量path,追加%FLUME_HOME%\conf和%FLUME_HOME%\bin
  5. 复制并重命名flume\config目录下的三个文件,并去掉.template后缀
  6. (如果没有配置JAVA_HOME需要)修改flume下conf文件夹中的flume-env.sh
    中的JAVA_HOME,指定jdk安装路径 ,如:export JAVA_HOME=D:\software\java\jdk10
  7. Win+R输入cmd,进入命令窗口,输入
flume-ng version

这里写图片描述
到这里就证明环境是ok的。

如果提示以下信息,证明jdk版本不对,或者不支持。推荐用1.8~1.10的64位版本吧。

Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/flume/tools/VersionInfo : Unsupported major.minor version 52.0

测试实例

这里=。=假设数据源为avro ,使用telnet连接source写入数据,产生日志数据输出控制台。

1、在conf文件夹中创建example.conf文件,写入

# example.conf: A single-node Flume configuration

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2、修改log4j日志输出方式,修改confi目录下的flume.root.logger为以下内容

 -flume.root.logger=INFO,console

3、 打开cmd,切到conf目录下,输入命令启动flume

flume-ng agent --conf conf --conf-file example.conf --name a1 

或者直接CMD输入(推荐这个方式,更为简单粗暴)

flume-ng agent -c D:\software\apache-flume-1.8.0-bin\conf -f D:\software\apache-flume-1.8.0-bin\conf\example.conf -n a1

这里写图片描述
如果提示这样,那是因为识别不了path设置的conf目录,可以”cd /d 路径”指定一下

Resolve-Path : 找不到路径“C:\Users\zhengk\example.conf”,因为该路径不存在。
所在位置 D:\software\apache-flume-1.8.0-bin\bin\flume-ng.ps1:217 字符: 24
+     $confFile = '"' + (Resolve-Path $confFile).Path + '"'
+                        ~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : ObjectNotFound: (C:\Users\zhengk\example.conf:String) [Resolve-Path], ItemNotFoundExcept
   ion
    + FullyQualifiedErrorId : PathNotFound,Microsoft.PowerShell.Commands.ResolvePathCommand

如果提示log4j相关内容,也是因为识别不到log4j的配置。或者log4j配置没有改
请运行flume-ng agent -c D:\software\apache-flume-1.8.0-bin\conf -f D:\software\apache-flume-1.8.0-bin\conf\example.conf -n a1这个命令

  Running FLUME agent :
    class: org.apache.flume.node.Application
    arguments: -n a1 -f "D:\software\apache-flume-1.8.0-bin\conf\example.conf"

log4j:WARN No appenders could be found for logger (org.apache.flume.lifecycle.LifecycleSupervisor).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

运行成功

cmd打开

telnet localhost 44444

然后输入一堆测试内容,看到flume控制台不断涌动的文字,证明成功了
这里写图片描述

猜你喜欢

转载自blog.csdn.net/moshowgame/article/details/80379402