【Spark】Spark一些面试题

在这里插入图片描述

1.概述

1. spark 如何保证宕机迅速恢复?

适当增加 spark standby master
编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作

2. Spark streaming 以及基本工作原理?

Spark streaming 是 spark core API 的一种扩展,可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
它支持从多种数据源读取数据,比如 Kafka、 Flume、 Twitter 和 TCP Socket,并且能够使用算子比如 map、 reduce、 join 和 window 等来处理数据,处理后的数据可以保存到文件系统、数据库等存储中。

Spark streaming 内部的基本工作原理是:接受实时输入数据流,然后将数据拆分成batch,比如每收集一秒的数据封装成一个 batch,然后将每个 batch 交给 spark 的计算引擎进行处理,最后会生产处一个结果数据流,其中的数据也是一个一个的
batch 组成的。

3. spark 有哪些组件?

  • master:管理集群和节点,不参与计算。 worker:计算节点,进程本身不参与计算,和 master 汇报。 Driver:运行程序的 main 方法,创建 spark context 对象。

猜你喜欢

转载自blog.csdn.net/qq_21383435/article/details/125576931
今日推荐