日志采集Flume配置选择 - 代码天地

日志采集Flume配置选择

企业开发 2022-03-23 13:56:05 阅读次数: 0

可选择 TaildirSource和KafkaChannel，并配置日志校验拦截器。

选择TailDirSource和KafkaChannel的原因如下：

1）TailDirSource

TailDirSource相比ExecSource、SpoolingDirectorySource的优势

TailDirSource：断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。
ExecSource可以实时搜集数据，但是在Flume不运行或者Shell命令出错的情况下，数据将会丢失。
SpoolingDirectorySource监控目录，支持断点续传。

2）KafkaChannel

采用Kafka Channel，省去了Sink，提高了效率。
日志采集Flume关键配置如下：

Flume组件选型

1）Source

（1）Taildir Source相比Exec Source、Spooling Directory Source的优势
TailDir Source：断点续传、多目录。
Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。
不会丢数据，但是有可能会导致数据重复。

Exec Source可以实时搜集数据，但是在Flume不运行或者Shell命令出错的情况下，数据将会丢失。

Spooling Directory Source监控目录，支持断点续传。

（2）batchSize大小如何设置？
答：Event 1K左右时，500-1000合适（默认为100）


2）Channel
采用Kafka Channel，省去了Sink，提高了效率。
KafkaChannel数据存储在Kafka里面，所以数据是存储在磁盘中。

注意在Flume1.7以前，Kafka Channel很少有人使用，因为发现parseAsFlumeEvent这个配置起不了作用。
也就是无论parseAsFlumeEvent配置为true还是false，都会转为Flume Event。
这样的话，造成的结果是，会始终都把Flume的headers中的信息混合着内容一起写入Kafka的消息中，这显然不是我所需要的，我只是需要把内容写入即可。

猜你喜欢

转载自blog.csdn.net/frdevolcqzyxynjds/article/details/123531911

日志采集Flume配置选择

flume配置采集日志

flume日志采集

Flume日志采集系统

日志采集框架Flume

Flume 日志采集

基于Flume的日志采集

日志采集工具——Flume

Flume信息采集配置

Flume采集处理日志文件

海量日志采集Flume(HA)

Flume日志采集框架的使用

Flume日志采集框架（1）

Flume日志采集框架学习

海量日志采集工具——Flume

flume案例-网络数据采集-Flume的配置

flume日志配置

大数据系列之日志采集Flume（二）Flume的Source到Channel工作流程，Source、Channel、Sink的配置

Flume + kafka + HDFS构建日志采集系统

Flume采集Nginx日志到HDFS

Flume各种采集日志方式与输出目录

hadoop 之 flume 日志采集框架

Flume+hbase 日志数据采集与存储

21_Flume日志采集框架

flume采集多个文件夹日志

日志采集 Flume 启动停止脚

Flume分布式日志采集

Flume框架讲解、应用案例——日志采集

Flume 高可用配置案例+load balance负载均衡+ 案例:日志的采集及汇总

电商数仓-(集群规划,消费Flume配置,Flume内存优化,Flume组件,日志消费Flume启动停止脚本,采集通道启动/停止脚本,Flume消费Kafka到HDFS上-HDFS上没有)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)