实时数仓设计之mysql binlog

在这里插入图片描述
maxwell启动的时候指定需要同步的表,因为并不是所有的表都需要同步到实时数仓,指定表可以大大的减少发送到kafka的数据量,启动命令例子:

./bin/maxwell --user=root --password=123456 --host=127.0.0.1 --producer=stdout --client_id test1 \
--replica_server_id 1 --filter 'exclude: *.*, include: test.test3’

新增一个同步的mysql表(表名:tt.test3)流程

1.首先需要在后台新增mysql表信息,包括表所在的库,指定kudu中映射表的主键字段(数据行的唯一标示)
2.初始化程序在kudu中创建mysql的映射表(包含字段类型转换,有些mysql中的类型,kudu时不支持的,例如:date)
3.同时启动maxwell bootstrap初始化程序,将新增表的历史数据一次性倒入到maxwell实例,脚本实例如下:

./bin/maxwell-bootstrap --user=root --password=123456 --host=127.0.0.1 --database tt \
--table test3 --client_id test1

或者直接在maxwell库的bootstrap新增一行数据

insert into bootstrap (database_name, table_name,client_id) values ('tt', 'test3','test1');

注意需要指明client_id,这个时候maxwell会记录新表tt.test3 的binlog的位置信息
4.数据发送到kafka集群
5,6,7.conumer进程获得新增表的元数据信息,主要是主键字段,然后消费kafka中的数据,插入更新kudu中的映射表
8.consumer在消费完新增表的初始化数据后,重启maxwell,添加新增表

./bin/maxwell --user=root --password=123456 --host=127.0.0.1 --producer=stdout --client_id test1 \
 --replica_server_id 1 --filter 'exclude: *.*, include: test.test3,include: tt.test3’

这样的话,test1这个maxwell进程就会根据上次maxwell记录tt.test3的位置信息,继续消费binlog日志

注意:对于表结构修改这种情况,我们的做法是,先删除kudu中的映射表,然后重新导入一份,和新增表一样的逻辑;表结构变更这种情况比较少,这种成本开销,还是可以接受的

发布了118 篇原创文章 · 获赞 37 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/woloqun/article/details/91854355