Spark常见易错题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kaikai_sk/article/details/84962396
  1. spark支持的join类型有
    A. inner join
    B. left outer join
    C. right outer join
    D. full outer join
    正确答案:A B C D
  2. 对于spark参数spark.ui.port,以下哪一个环境中的参数在运行时生效
    A. spark-defaults.conf配置文件中指定
    B. spark-submit --conf spark.ui.port 提交任务时指定
    C. sparkcontext中采用conf.set(“spark.ui.port”,’‘14040’’)指定
    D. spark-site.xml中指定
    正确答案:C
  3. 以下哪个不是spark的组件()
    A.Spark R
    B.Spark Streaming
    C.Mllib
    D.GraphX
    正确答案:A
  4. Spark默认的存储级别是
    A. MEMORY_ONLY
    B. MEMORY_ONLY_SER
    C. MEMORY_AND_DISK
    D. MEMORY_AND_DISK_SER
    正确答案:A
  5. 以下哪个概念与Spark无关
    A. Graphx
    B. Structrued Streaming
    C. Spout
    D. Data Frames
    正确答案:C
  6. Spark不支持使用哪种语言进行开发
    A. Java
    B. C++
    C. Scala
    D. Python
    正确答案:B
  7. 以下哪个不属于spark的transform操作()
    A. collect
    B. filter
    C. map
    D. flatMap
    正确答案:A
  8. 简述Spark任务提交到yarn-cluster上的任务运行过程
    先介绍一下spark从提交到运行的全流程,下面再详细分析。
    (1)、用户通过spark-submit脚本提交应用。
    (2)、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。
    (3)、driver与集群管理器(如YARN)通信,申请资源以启动executor。
    (4)、集群管理器启动executor。
    (5)、driver进程执行用户的代码,根据程序中定义的transformation和action,进行stage的划分,然后以task的形式发送到executor。(通过DAGScheduler划分stage,通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task)
    (6)、task在executor中进行计算并保存结果。
    (7)、如果driver中的main()方法执行完成退出,或者调用了SparkContext#stop(),driver会终止executor进程,并且通过集群管理器释放资源。
  9. Spark中各Stage的Task数量由什么决定
    A. Partition
    B. Job
    C. Stage
    D. TaskScheduler
    正确答案:A
  10. 下面spark代码执行时,会读取几次file文件
    val raw = sc.textFile(file)
    val pvLog = raw.filter(isPV())
    val clLog = raw.filter(isCL(
    ))
    val baseRDD = pvLog.union(clLog)
    val baseRDD.count()
    A. 0次
    B. 1次
    C. 2次
    D. 3次
    正确答案:B
  11. Spark中以下哪个操作会进行真实计算
    A. Map
    B. Join
    C. ReduceByKey
    D. collect
    正确答案:D
  12. spark 的 master 和 worker 通过什么方式进行通信的
    A. http
    B. nio
    C. netty
    D. Akka
    正确答案:D
  13. Spark on Yarn模式提交任务后,会进行以下几个过程
    ①向Yarn申请executor资源。
    ②任务构建成DAG图。
    ③Task发送给executor执行。
    ④进行Stage划分与TaskSet生成。
    ⑤启动SparkContext。
    ⑥executor向SparkContext进行注册。
    以上过程发生的先后顺序为
    A. 165432
    B. 516243
    C. 165342
    D. 526143
    正确答案:B
  14. Spark支持的分布式部署方式中哪个是错误的
    A. Standlone
    B. Spark on mesos
    C. Spark on YARN
    D. Spark on local
    正确答案:D
    15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景
    在这里插入图片描述

参考:https://www.cnblogs.com/reed/p/7730338.html

  1. 以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。

猜你喜欢

转载自blog.csdn.net/kaikai_sk/article/details/84962396