SparkStreaming部分:SparkStreaming+Kafka 的direct模式【图片+文字说明】

direct是一对一的模式,相对于receiver模式,简化了并行度,没有使用zookeeper来维护消费者偏移量,默认用spark来维护消费者偏移量,默认保存在内存中,如果设置了checkpoint的话,会保存在checkpoint中。(receiver中是借助于zookeeper来维护消费者偏移量的),是低级API来实现的。

消费数据的时候,假如有200条数据,上一次消费到100条,下一次接着第101条数据开始消费,不会有数据丢失。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81349859