빅 데이터의 도로 Week08_day02 (수로 세 가지 구성 요소 소스, 채널, 싱크)

사용하기 전에 먼저 부품 및 어셈블리의 일부의 특성을 설명 수로

수로의 장점 :

  1. 수조는 HDFS, HBase와 같은 중앙 집중화 된 메모리에 애플리케이션에 의해 생성 된 데이터를 저장할 수있다

  2. 때 시간이 지남에 따라 데이터 수집의 속도 정보가 발생 피크의 컬렉션이 시간은 정보 수집이 더 많은 시스템이 시간에 쓰기 데이터에 대한 능력보다 매우 큰 경우, 수로 데이터 것입니다 쓰기 데이터, 생산자 사이가 부드러운 사이에 데이터를 제공 할 수 있도록, 데이터 컨테이너를 조정합니다.

  3. 라우팅 기능은 컨텍스트를 제공

  4. 수로 배관은 송신 및 수신에서 데이터의 일관성을 보장하기 위해 트랜잭션에 기초한다.

  5. 수조 신뢰성, 높은 내결함성, 확장 성, 관리 및 사용자 정의 할 수 있습니다.

수로 기능 :

  1. 수로는 효율적인 서버 로그 정보에 HDFS / HBase를에 여러 사이트에서 수집

  수로의 빠른 전송을 사용하여 2. 우리는 하둡에서 여러 서버에서 데이터를 얻을 수 있습니다

  로그 정보 이외에 3. 수로는 또한 페이스 북, 트위터, 아마존 등의 전기 공급 업체 사이트 flipkart 등 소셜 네트워킹 노드 이벤트 데이터를 수집 대규모 액세스 할 수

  4. 지원 데이터 액세스 리소스의 다양한 타입의 다음 데이터 형식

  5. 지원 다중 트래픽 흐름의 멀티 채널 액세스 한 다음 멀티 채널 트래픽을 라우팅 컨텍스트

  도 6은 가로로 확장 될 수있다

================================================== ================================================== ================================================== ======

세 가지 구성 요소의 수로 :

1, 소스

  사이드 데이터가 데이터 수집을위한 특별한 책임 포맷, 수집, 이벤트 (이벤트)에 캡슐화 된 데이터는, 이벤트는 다음 채널로 푸시됩니다. 수로는 많은 내장 소스 (JSON 형식으로 몸) 후 지원 브로, log4j에, 시스템 로그 및 HTTP를 제공합니다. 요구를 충족 할 수없는 AvroSource 소스로 내장 된 경우 응용 프로그램이 기존의 소스와 직접 거래 할 수 있도록, 수로는 또한 사용자 정의 소스를 지원합니다.

 

 

소스 유형 :

 

 

 

소스 특정 역할 :

  AvroSource : 아 브로 청취 서비스 포트, 데이터는 아브로 데이터를 직렬화 수집;

  드리프트 출처 : 드리프트 청취 서비스 포트, 데이터는 드리프트가 데이터를 직렬화 수집;

  간부 출처 : 출력 표준 유닉스 기반 명령에 대한 데이터를 획득하는 단계;

  JMS 출처 : 자바 메시지 서비스 데이터 소스, 자바 메시지 서비스는 JMS 사양 데이터 소스 인수에 의해 지원되는 독립적 인 플랫폼 별 API이다;

  스풀링 디렉토리 소스 : 소스에 의해 데이터의 집합으로서 폴더에 새로운 문서 [시험] 헤더

  카프카 출처 : 데이터 카프카 서비스에서 수집.

  netcat을 소스 포트 (TCP, UDP), 입력 이벤트와 결합 텍스트 데이터 스트림 포트의 각 행

  취득 모니터 HTTP POST와는 데이터가 생성 GET : HTTP 소스

================================================== ================================================== =============================================

2 채널

채널 소스 및 싱크, 우리는 데이터 버퍼 (데이터 큐)로 볼 수있는 구성 요소를 연결하고,이 메모리에 임시 이벤트에 저장 될 수도 로컬 디스크에 유지 될 수 있고, 싱크까지 이벤트 처리.

介绍两个较为常用的Channel : MemoryChannel和FileChannel。

 

 

Channel:一个数据的存储池,中间通道。

主要作用:接受source传出的数据,向sink指定的目的地传输。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重写,不会造成数据丢失,因此很可靠。 channel的类型很多比如:内存中、jdbc数据源中、文件形式存储等。

常见采集的数据类型: Memory Channel、File Channel、JDBC Channel、Kafka Channel等

详细查看: http://flume.apache.org/FlumeUserGuide.html#flume-channels

Channel具体作用:

  Memory Channel:使用内存作为数据的存储。

  JDBC Channel:使用jdbc数据源来作为数据的存储。

  Kafka Channel:使用kafka服务来作为数据的存储。

  File Channel:使用文件来作为数据的存储。

  Spillable Memory Channel:使用内存和文件作为数据的存储,即:先存在内存中,如果内存中数据达到阀值则flush到文件中。

=============================================================================================================================================================

3、Sink

Sink从Channel中取出事件,然后将数据发到别处,可以向文件系统、数据库、 hadoop存数据, 也可以是其他agent的Source。在日志数据较少时,可以将数据存储在文件系统中,并且设定一定的时间间隔保存数据。

 

 

Sink:数据的最终的目的地.

主要作用:接受channel写入的数据以指定的形式表现出来(或存储或展示)。 sink的表现形式很多比如:打印到控制台、hdfs上、avro服务中、文件中等。

常见采集的数据类型: HDFS Sink、Hive Sink、Logger Sink、Avro Sink、Thrift Sink、File Roll Sink、HBaseSink、Kafka Sink等

详细查看: http://flume.apache.org/FlumeUserGuide.html#flume-sinks HDFSSink需要有hdfs的配置文件和类库。

一般采取多个sink汇聚到一台采集机器负责推送到hdfs。

Sink具体作用:

HDFS Sink:将数据传输到hdfs集群中。

Hive Sink:将数据传输到hive的表中。

Logger Sink:将数据作为日志处理(根据flume中的设置的日志的级别显示)。

Avro Sink:数据被转换成Avro Event,然后发送到配置的RPC端口上。

Thrift Sink:数据被转换成Thrift Event,然后发送到配置的RPC端口上。

IRC Sink:数据向指定的IRC服务和端口中发送。

File Roll Sink:数据传输到本地文件中。

Null Sink:取消数据的传输,即不发送到任何目的地。

HBaseSink:将数据发往hbase数据库中。

MorphlineSolrSink:数据发送到Solr搜索服务器(集群)。

ElasticSearchSink:数据发送到Elastic Search搜索服务器(集群)。

Kafka Sink:将数据发送到kafka服务中。

Flume 使用事务性的方式保证传送Event整个过程的可靠性。

Sink 必须在Event 被存入Channel 后,或者,已经被传达到下一站agent里,又或者,已经被存入外部数据目的地之后,才能把 Event 从 Channel 中 remove 掉。这样数据流里的 event 无论是在一个 agent 里还是多个 agent 之间流转,都能保证可靠,因为以上的事务保证了 event 会被成功存储起来。比如 Flume支持在本地保存一份文件 channel 作为备份,而memory channel 将event存在内存 queue 里,速度快,但丢失的话无法恢复。

추천

출처www.cnblogs.com/wyh-study/p/12093560.html