Spark十六 Spark Streaming之转化操作，输出操作，输入源 - 代码天地

Spark十六 Spark Streaming之转化操作，输出操作，输入源

其他 2018-07-10 16:13:32 阅读次数: 0

1 转化操作

> 无状态转化操作：每个批次的处理不依赖之前批次的数据

> 有状态转化操作：使用之前批次的数据或者中间结果计算当前批次的数据

(1) 基于滑动窗口的有状态转化操作

> 以一个时间阶段进行操作

> 窗口时长和滑动步长，是批次间隔的整数倍

(2) 追踪状态变化的转化操作

> updateStateByKey()：跟踪每个键的状态变化

2 输出操作

> 对流数据经转化操作后的数据执行操作

> print()，输出每个RDD的前十个元素

> foreachRDD()对每个RDD执行计算

3 输入源

> 核心数据源

(1) 文件流

(2) Akka actor流

> 附加数据源

(1) Kafka

(2) Flume

> 多数据源与集群规模

(1) union()/join()/cogroup()合并或聚合数据源

(2) 接收器在集群运行

> 每个接收器都以Spark执行器程序中一个长期运行的任务运行，会占用分配给应用的核心

> 需要可用的CPU核心处理数据，运行多个接收器，需要由多个核心，加上运算需要的核心

> 例如，CPU核心数至少等于接收器个数 + 1

> 所以在Spark Streaming中，不要使用"local"/"local[1]"，这样只会分配一个CPU核心给任务，至少使用"local[2]"

猜你喜欢

转载自blog.csdn.net/weixin_42129080/article/details/80954080

Spark十六 Spark Streaming之转化操作，输出操作，输入源

Spark 系列（十六）—— Spark Streaming 整合 Kafka

Spark（四十六）：Spark 内存管理之—OFF_HEAP

【Spark九十六】RDD API之combineByKey

Spark Streaming的窗口操作

[spark streaming]状态操作

[spark streaming]窗口操作

Spark Streaming转换操作

Spark Streaming转换操作

Spark Streaming 基本操作

【Spark】Spark基本操作

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming与Spark SQL结合操作详解

【Spark八十六】Spark Streaming之DStream vs. InputDStream

Spark学习之Spark Streaming

Spark核心之Spark Streaming

Spark Streaming之window（窗口操作）

Spark Streaming 之foreachRDD 输出

[Spark]-Streaming-操作篇

Spark Streaming操作笔记

spark streaming的window窗口操作

Spark Streaming

【Spark三十六】Spark On Yarn之yarn-client方式部署

Spark（十六）Spark Core 调优之资源调优JVM的基本架构

实验十六 Spark实验：Spark综例

Spark（四）Spark 键值对操作

[Spark][spark_streaming]#5_spark_streaming&spark_sql

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)