sparkstreaming + kafka如何保证数据不丢失、不重复

其他 2018-06-22 23:51:55 阅读次数: 6

spark-streaming作为一个24*7不间断运行的程序来设计，但是程序都会crash，如果crash了，如何保证数据不丢失，不重复。

Input DStreams and Receivers

spark streaming提供了两种streaming input source：

basic source: Source directly avaliable in the StreamingContext API. Examples: file,socket connnection
advanced source: Source like kafka/kinesis, etc. are avaliable through extra utility classes.

本文只讨论高级数据源，因为针对流计算场景，基本数据源不适用。
高级数据源，这里以kafka为例，kafka作为输入源，有两种方式：
1. Receiver-based 方式
2. Direct 方式
两种方式的对比见博客：

保证数据不丢失（at-least）

spark RDD内部机制可以保证数据at-least语义。

Receiver方式

开启WAL（预写日志），将从kafka中接受到的数据写入到日志文件中，所有数据从失败中可恢复。

Direct方式

依靠checkpoint机制来保证。

保证数据不重复（exactly-once）

要保证数据不重复，即Exactly once语义。
- 幂等操作：重复执行不会产生问题，不需要做额外的工作即可保证数据不重复。
- 业务代码添加事务操作

dstream.foreachRDD {(rdd, time) =
  rdd.foreachPartition { partitionIterator =>
    val partitionId = TaskContext.get.partitionId()
    val uniqueId = generateUniqueId(time.milliseconds,partitionId)
    //use this uniqueId to transationally commit the data in partitionIterator
 }
}

1
2
3
4
5
6
7

就是说针对每个partition的数据，产生一个uniqueId，只有这个partition的所有数据被完全消费，则算成功，否则算失效，要回滚。下次重复执行这个uniqueId时，如果已经被执行成功，则skip掉。

猜你喜欢

转载自blog.csdn.net/qq_15300683/article/details/80654650

sparkstreaming + kafka如何保证数据不丢失、不重复

sparkStreaming kafka保证数据不丢失、不重复

kafka SparkStreaming

SparkStreaming读取Kafka数据

SparkStreaming消费kafka数据

sparkstreaming数据丢失和重复消费问题

大数据之sparkStreaming（一）：sparkStreaming概述、SparkStreaming的组件

Storm与SparkStreaming的区别？（storm与sparkstreaming如何选择）

kafka整合sparkStreaming

sparkstreaming写入kafka的优化

12.3 kafka和Sparkstreaming

SparkStreaming 读取Kafka createDirectStreaming

sparkstreaming 监听 kafka 代码

SparkStreaming操作Kafka

kafka整合sparkStreaming问题

SparkStreaming 读写Kafka

sparkStreaming kafka学习笔记

SparkStreaming整合kafka入门

SparkStreaming整合kafka的补充

SparkStreaming整合kafka

SparkStreaming与kafka入门学习

SparkStreaming+Kafka整合

SparkStreaming与Kafka的整合（基础）

SparkStreaming 整合kafka Demo

kafka整合sparkStreaming及优化

kafka与SparkStreaming整合

Kafka+sparkStreaming+Hbase

SparkStreaming整合kafka的代码

SparkStreaming+Kafka

记SparkStreaming连接kafka

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)