StreamSet作为大数据ETL工具的选择,当然需要处理数据的合并与转存,这里介绍针对mysql数据库的同步转存,采用mysql的binary Log方式进行。
学习系列
- 数据对接-ETL之StreamSet学习之旅一
- 数据对接-ETL之StreamSet学习之旅二
- 数据对接-ETL之StreamSet学习之旅三
- 数据对接-ETL之StreamSet学习之旅四
- 数据对接-ETL之StreamSet学习之旅五
- 数据对接-ETL之StreamSet学习之旅六
1、 配置支持mysql
安装Mysql的Jdbc驱动以及BinaryLog驱动:
定位到安装目录: /opt/streamsets-datacollector/streamsets-libs
找到两个目录:streamsets-datacollector-jdbc-lib 和 streamsets-datacollector-mysql-binlog-lib,分别拷贝mysql的jdbc和binaryLog驱动。重启服务StreamSet。
2、绘制流程图
在StreamSet内构件管道,增加mysql binlog以及jdbc消费端,并进行数据转换。如图
3、mysql Binary Log组件讲解
StreamSet的MySql Binary Log 组件,主要用来跟踪Mysql的Binary Log文件的变化,并且从指定的GTID读取变化,实时推数据到下面的组件。
其中支持的mysql配置如下:binlog_format = row
Streamset提供的binary log组件支持对数据库,数据表的过滤,可以包含实例下所有的数据库,或指定的数据库,指定的表,使用%支持过滤匹配。
4、JDBS 消费组件
jdbc消费组件,按照binarylog数据的属性进行操作,已经按照sdc.operation.type属性进行了划分,可以轻松的连接到本组件。
数据的组织稍微不同,删除使用的是OldData数据组,插入和修改使用的是Data数据组,我们只需要按照这两个字段进行组织即可。
好了,可以完成所有的工作了。
# 结语
知道的越多,越觉得自己的无知!学习无止境,这个软件整体做的非常不错!
****
在此我向大家推荐一个微服务架构学习交流群。交流学习QQ群号:864759589 里面会分享一些资深架构师录制的视频录像:高并发、高性能、分布式、微服务架构的原理,分布式架构等这些成为架构师必备的知识体系。
****