数据对接-ETL之StreamSet学习之旅六

StreamSet作为大数据ETL工具的选择,当然需要处理数据的合并与转存,这里介绍针对mysql数据库的同步转存,采用mysql的binary Log方式进行。

学习系列

  1. 数据对接-ETL之StreamSet学习之旅一
  2. 数据对接-ETL之StreamSet学习之旅二
  3. 数据对接-ETL之StreamSet学习之旅三
  4. 数据对接-ETL之StreamSet学习之旅四
  5. 数据对接-ETL之StreamSet学习之旅五
  6. 数据对接-ETL之StreamSet学习之旅六
     

1、 配置支持mysql

安装Mysql的Jdbc驱动以及BinaryLog驱动:

定位到安装目录: /opt/streamsets-datacollector/streamsets-libs

找到两个目录:streamsets-datacollector-jdbc-lib 和 streamsets-datacollector-mysql-binlog-lib,分别拷贝mysql的jdbc和binaryLog驱动。重启服务StreamSet。

2、绘制流程图

在StreamSet内构件管道,增加mysql binlog以及jdbc消费端,并进行数据转换。如图

StreamSets使用指南 08-20 streamsets2.6.0.1--使用案例详细文档 02-28 streamsets2.6.0.1组件汉化 02-28 大数据最火的平台------> streamsets 12-07 StreamSet之数据流从JDBC到Hbase 10-09 StreamSets_从传统关系型数据库Mysql到Hbase的实时数据采集(... 11-14 Apache_Nifi_vs_StreamSets简单比较 08-03 streamsets数据采集平台介绍 06-19 docker-streamsets安装 09-17 StreamSet学习(一)Pipeline_Concepts_and_Design 11-29 streamsets2.6.0.1搭建开发环境 02-28 利用streamSet搭建一个简单的数据管道 09-03 StreamSets_简介 09-03 StreamSets_下载安装教程 08-08 Streamsets相关资料汇总 05-27 StreamSets快速安装与介绍 08-25 StreamSets_安装JDBC驱动指北 11-09 streamsets2.6.0.1执行监控接口 02-28 Streamsets应用--Kafka2ES 08-21 streamsets编译时的那些坑 06-22 StreamSets从MySQL增量更新到Hive 10-10 Spark安装部署 09-23 Redis安装部署 12-16 StreamSets-安装和运行Demo 05-24 StreamSets-用户认证 05-24 Streamsets的所见的问题 07-20 streamsets Data Collecotor启动流程分析

3、mysql Binary Log组件讲解 

StreamSet的MySql Binary Log 组件,主要用来跟踪Mysql的Binary Log文件的变化,并且从指定的GTID读取变化,实时推数据到下面的组件。

其中支持的mysql配置如下:binlog_format = row

Streamset提供的binary log组件支持对数据库,数据表的过滤,可以包含实例下所有的数据库,或指定的数据库,指定的表,使用%支持过滤匹配。

4、JDBS 消费组件

jdbc消费组件,按照binarylog数据的属性进行操作,已经按照sdc.operation.type属性进行了划分,可以轻松的连接到本组件。

数据的组织稍微不同,删除使用的是OldData数据组,插入和修改使用的是Data数据组,我们只需要按照这两个字段进行组织即可。

好了,可以完成所有的工作了。

# 结语
知道的越多,越觉得自己的无知!学习无止境,这个软件整体做的非常不错!

****
在此我向大家推荐一个微服务架构学习交流群。交流学习QQ群号:864759589  里面会分享一些资深架构师录制的视频录像:高并发、高性能、分布式、微服务架构的原理,分布式架构等这些成为架构师必备的知识体系。

StreamSets使用指南 08-20 streamsets2.6.0.1--使用案例详细文档 02-28 streamsets2.6.0.1组件汉化 02-28 大数据最火的平台------> streamsets 12-07 StreamSet之数据流从JDBC到Hbase 10-09 StreamSets_从传统关系型数据库Mysql到Hbase的实时数据采集(... 11-14 Apache_Nifi_vs_StreamSets简单比较 08-03 streamsets数据采集平台介绍 06-19 docker-streamsets安装 09-17 StreamSet学习(一)Pipeline_Concepts_and_Design 11-29 streamsets2.6.0.1搭建开发环境 02-28 利用streamSet搭建一个简单的数据管道 09-03 StreamSets_简介 09-03 StreamSets_下载安装教程 08-08 Streamsets相关资料汇总 05-27 StreamSets快速安装与介绍 08-25 StreamSets_安装JDBC驱动指北 11-09 streamsets2.6.0.1执行监控接口 02-28 Streamsets应用--Kafka2ES 08-21 streamsets编译时的那些坑 06-22 StreamSets从MySQL增量更新到Hive 10-10 Spark安装部署 09-23 Redis安装部署 12-16 StreamSets-安装和运行Demo 05-24 StreamSets-用户认证 05-24 Streamsets的所见的问题 07-20 streamsets Data Collecotor启动流程分析
****

引用链接
1. [口袋代码仓库]()
2. [在线计算器](http://jisuanqi.codeex.cn)
3. 本节源码:[github](https://github.com/webmote-org/)

猜你喜欢

转载自blog.csdn.net/webmote/article/details/88222732