【SPARK】Spark Streaming简介 - 代码天地

【SPARK】Spark Streaming简介

编程语言 2018-10-11 16:04:32 阅读次数: 0

Spark Streaming可以整合多种输入数据源，如Kafka、Flume、HDFS甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库、或显示在仪表盘。

Spark Streaming执行流程

Spark Streaming的基本原理是将实时输入数据流以时间片（秒级）为单位进行拆分，然后经Spark引擎以类拟批处理的方式处理每个时间片数据

DStream操作示意图

Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片（如1秒）。一个DStream，就是一堆的RDD，即RDD集合，所以多DStream的操作就是对RDD的操作

Spark输入源

文件流：https://github.com/chris1132/spark_lecture/blob/master/src/main/scala/com/chovy/spark/SparkStreaming/FileStream.scala

套接字流：https://github.com/chris1132/spark_lecture/blob/master/src/main/scala/com/chovy/spark/SparkStreaming/SocketSream.scala

RDD队列流：https://github.com/chris1132/spark_lecture/blob/master/src/main/scala/com/chovy/spark/SparkStreaming/RDDQueueStream.scala

kafka:https://github.com/chris1132/spark_lecture/tree/master/src/main/scala/com/chovy/spark/SparkStreaming/kafka

DStream无状态转换操作

一个DStream，就是一堆的RDD，即RDD集合，所以多DStream的操作就是对RDD的操作

map(func)：对DStream的每个元素，采用func函数进行转换，得到一个新的DStream

flatMap(func)：与map相似，但是每个输入项可用被映射为0个或者多个输出项

repartition(numPartitions)：通过创建更多或更少的分区改变DStream的并行程度

count()：统计源DStream中每个RDD的元素数量

filter(func)：返回一个新的DStream，仅包含源DStream中满足函数func的项

reduce(func)：利用函数func聚集源DStream中每个RDD的元素，返回一个包含单元素RDDs的新DStream

union(otherStream)：返回一个新的DStream，包含源DStream和其他DStream的元素

countByValue()：应用于元素类型为K的DStream上，返回一个（K，V）键值对类型的新DStream，每个键的值是在原DStream的每个RDD中的出现次数

reduceByKey(func,[numTasks])：当一个由（K，V）键值对组成的DStream上执行该操作时，返回一个新的由（K，V）键值对组成的DStream，每一个key的值均由给定的reduce函数聚集起来

猜你喜欢

转载自blog.csdn.net/u010530712/article/details/82853896

【SPARK】Spark Streaming简介

Spark Streaming简介

Spark Streaming简介及原理

Spark SQL和Spark Streaming简介

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

Spark Streaming

Spark Streaming 简介、原理、DStream相关操作

Spark Streaming 简介、原理、DStream相关操作

Spark -- Spark Streaming 简介，原理，DStream相关操作

[Spark][spark_streaming]#5_spark_streaming&spark_sql

spark学习笔记：Spark Streaming

Spark学习之Spark Streaming

Spark学习笔记： Spark Streaming

Spark --------Spark Streaming 集成 Kafka

【Spark】Spark Streaming的back pressure

Spark入门(五)——Spark Streaming

Spark核心之Spark Streaming

spark--Spark Streaming实战-★★★★★

spark--Spark Streaming原理-★★★

spark--Spark Streaming引入-★

【Spark Streaming】3、Spark Streaming入门

Spark简介

spark 简介

【Spark】简介

Spark Streaming-02

flume 对接spark streaming

Spark Streaming Programming Guide

【Spark Streaming介绍】

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)