Spark常见易错题

spark支持的join类型有
A. inner join
B. left outer join
C. right outer join
D. full outer join
正确答案：A B C D
对于spark参数spark.ui.port，以下哪一个环境中的参数在运行时生效
A. spark-defaults.conf配置文件中指定
B. spark-submit --conf spark.ui.port 提交任务时指定
C. sparkcontext中采用conf.set(“spark.ui.port”,’‘14040’’)指定
D. spark-site.xml中指定
正确答案：C
以下哪个不是spark的组件（）
A.Spark R
B.Spark Streaming
C.Mllib
D.GraphX
正确答案：A
Spark默认的存储级别是
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER
正确答案：A
以下哪个概念与Spark无关
A. Graphx
B. Structrued Streaming
C. Spout
D. Data Frames
正确答案：C
Spark不支持使用哪种语言进行开发
A. Java
B. C++
C. Scala
D. Python
正确答案：B
以下哪个不属于spark的transform操作（）
A. collect
B. filter
C. map
D. flatMap
正确答案：A
简述Spark任务提交到yarn-cluster上的任务运行过程
先介绍一下spark从提交到运行的全流程，下面再详细分析。
(1)、用户通过spark-submit脚本提交应用。
(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器，以及在合适的位置启动driver。
(3)、driver与集群管理器(如YARN)通信，申请资源以启动executor。
(4)、集群管理器启动executor。
(5)、driver进程执行用户的代码，根据程序中定义的transformation和action，进行stage的划分，然后以task的形式发送到executor。（通过DAGScheduler划分stage，通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task）
(6)、task在executor中进行计算并保存结果。
(7)、如果driver中的main()方法执行完成退出，或者调用了SparkContext#stop()，driver会终止executor进程，并且通过集群管理器释放资源。
Spark中各Stage的Task数量由什么决定
A. Partition
B. Job
C. Stage
D. TaskScheduler
正确答案：A
下面spark代码执行时，会读取几次file文件
val raw = sc.textFile(file)
val pvLog = raw.filter(isPV())
val clLog = raw.filter(isCL())
val baseRDD = pvLog.union(clLog)
val baseRDD.count()
A. 0次
B. 1次
C. 2次
D. 3次
正确答案：B
Spark中以下哪个操作会进行真实计算
A. Map
B. Join
C. ReduceByKey
D. collect
正确答案：D
spark 的 master 和 worker 通过什么方式进行通信的
A. http
B. nio
C. netty
D. Akka
正确答案：D
Spark on Yarn模式提交任务后，会进行以下几个过程
①向Yarn申请executor资源。
②任务构建成DAG图。
③Task发送给executor执行。
④进行Stage划分与TaskSet生成。
⑤启动SparkContext。
⑥executor向SparkContext进行注册。
以上过程发生的先后顺序为
A. 165432
B. 516243
C. 165342
D. 526143
正确答案：B
Spark支持的分布式部署方式中哪个是错误的
A. Standlone
B. Spark on mesos
C. Spark on YARN
D. Spark on local
正确答案：D
15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

参考：https://www.cnblogs.com/reed/p/7730338.html

以WordCount为例，分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。

猜你喜欢