sparkStreaming介绍与运行方式 - 代码天地

sparkStreaming介绍与运行方式

其他 2018-06-11 05:08:46 阅读次数: 0

Spark Streaming is an extension of the core Spark API that enables scalable,
high-throughput,
fault-tolerant
stream processing of live data streams.

Spark Streaming个人的定义：
将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统

特点
低延时
能从错误中高效的恢复：fault-tolerant
能够运行在成百上千的节点
能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用

Spark Streaming是否需要独立安装？

One stack to rule them all ：一栈式

GitHub
https://github.com/apache/spark

spark-submit的使用

使用spark-submit来提交我们的spark应用程序运行的脚本(生产)
./spark-submit --master local[2] \
--class org.apache.spark.examples.streaming.NetworkWordCount \
--name NetworkWordCount \
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.2.0.jar hadoop000 9999

如何使用spark-shell来提交(测试)
./spark-shell --master local[2]

import org.apache.spark.streaming.{Seconds, StreamingContext}

val ssc = new StreamingContext(sc, Seconds(1))
val lines = ssc.socketTextStream("hadoop000", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

工作原理：粗粒度
Spark Streaming接收到实时数据流，把数据按照指定的时间段切成一片片小的数据块，
然后把小的数据块传给Spark Engine处理。

猜你喜欢

转载自blog.csdn.net/qq_35394891/article/details/80593304

sparkStreaming介绍与运行方式

SparkStreaming 搭建《二》运行SparkStreaming在集群上提交方式

SparkStreaming 介绍

SparkStreaming的介绍

SparkStreaming的运行流程

SparkStreaming运行原理

Spark介绍（三）SparkStreaming

SparkStreaming的介绍及原理

运行sparkstreaming的NetworkWordCount不能出现

kafka对接SparkStreaming的方式详解

SparkStreaming和Kafka的整合方式

SparkStreaming读取kafka数据的方式

SparkStreaming源码运行架构图解

sparkStreaming运行yarn，提交任务报错

SparkStreaming

SparkStreaming基本使用与Window简单的介绍

Spark -------- SparkStreaming介绍、工作原理及性能优化

SparkStreaming整合Flume-Pull方式（核心）

SparkStreaming整合Flume-Push方式

SparkStreaming通过Kafka获取数据（Receiver方式）

SparkStreaming把 DataFrame写入到Hbase的常用方式

SparkStreaming整合Kafka--Direct方式

SparkStreaming与kafka通过直连方式读取数据

sparkStreaming读取kafka数据的2种方式

SparkStreaming消费kafka中数据的方式

SparkStreaming消费Kafka的offset的管理方式

SparkStreaming整合kafka直连模式direct方式

SparkStreaming消费Kafka的两种方式

通过crontab监控SparkStreaming任务运行状态

Linux的shell编程（一）-shell介绍、运行环境和运行方式、shell的变量

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)