Spark Streaming编程模型及原理

                                                           Spark Streaming编程模型及原理

   离散数据流(Discretized Stream or DStream)是Spark Streaming 中最基本的抽象数据结构,它代表了连续的流式数据,与RDD类似,DStream有两种产生方式,一种是从源头获取的输入数据,另外一种则是对源数据经过转换处理后产生的。

   而实际上,DStream的本质是由一系列RDD构成的,每个RDD中保存了一个确定时间间隔内的数据,如下图

 

                                  

   任何作用在DStream上的操作,最终都会作用在其内部的RDD上,但是这些操作是有Spark来完成的。Spark Streaming已封装好了更加高层的API函数,我们只需要直接对DStream进行操作转换,其内部RDD转换的细节并不需要我们过多关系。

发布了74 篇原创文章 · 获赞 4 · 访问量 3185

猜你喜欢

转载自blog.csdn.net/u014635374/article/details/105477356