spark考试练习题

满满的干货

第一章1.Spark2.X新特征简单讲述三方面，分别为精简的API,Spark作为编译器,智能优化。2.Stage 的 Task 的数量由什么决定:Partition3.Spark 哪个模式利用的Hadoop 的资源管理:spark on YARN。4.Spark特点包括：易用，迅速。5.本章涉及的Spark与Hadoop的区别为：解决问题方式不同，解决问题方式不同。6.Spark的架构包括：Cluster Manager、Worker、Executor、Driver App。7.下面哪个不是Spark 的四大组件：Spark R。8.Spark的四大特点有什么：迅速、通用、通用、支持多种资源管理器。9.Spark Core包括什么：Mllib和Spark SQL。

第二章1.在Ubuntu系统中，软件的安装是通过什么命令加软件名这种方式进行的：apt-get install。2.什么是与Spark环境相关的配置文件：spark-env.sh。3.什么是与Spark日志相关的配置文件：log4j.properties。4.什么是与Spark集群节点相关的配置文件：slaves。14什么命令可把应用提交到集群：spark-submit。5.什么是 Spark 为 Python 开发者提供的 API：pyspark。6.Spark支持多种开发语言API,分别为：Java、Scala、Python。7.Spark运行环境搭建依赖：Java、Scala、Spark。8.http://spark.apache.org是下载什么的官网：spark。9.Spark在使用之前，需要进行一定的配置，主要包括：安装SSH、修改环境变量、修改Spark文件夹的访问权限、节点参数配置。

第三章1.Python的基础库包括：Numpy、Scipy、Matplotlab、Pandas。2、什么负责图像处理的应用：GraphX。3.PySpark拥有几种启动模式：4。4.什么类提供了对广播变量的操作方法：pyspark.Broadcast。5.什么类提供了对累加器变量的操作方法：pyspark. Accumulator。6.什么负责实时流处理的应用：Spark Streaming。7.什么负责机器学习的应用：MLlib。8.什么类提供了对一个Spark应用程序配置的操作方法：pyspark.SparkConf。9.并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析：网路爬虫。10.Python所具有的优点包括：强大的可移植性、具有丰富的库、简单易学、免费开源。11.修改其中的什么文件，能够帮助我们在后期的使用中快速启动Jupyter：profile。12.PySpark 启动模式分为：local、standalone、yarn、mesos。13.Spark控制日志输出内容的方式有几种：2。14.什么负责即席查询的应用：Spark SQL。

第四章1.什么在驱动程序中，以数组的形式返回数据集的所有元素：collect。2.Spark中因为算子中的真正逻辑是发送到Executor中去运行的，数据是分区的，所以当所以当Executor中需要引用外部变量时，需要使用什么：广播变量3.什么在不改变原有Key键的基础上，对Key-Value结构RDD的Vaule值进行一个map操作，分区保持不变。mapValues。4.什么命令通过使用shell命令来将每个RDD的分区给Pipe。：pipe。5.Transformation处理数据为Key-Value形式的算子大致可以分为一下几种：输入分区、输出分区、聚集、连接。6.RDD算子类型包括：转换和动作。7.什么对Key-Value结构的RDD先执行mapValue操作，再执行压平的操作，类似map与flatMap的区别：flatMapValues。8.什么操作对源RDD进行去重后返回一个新的RDD。distinct，9.Spark共享变量包括：累加器、广播变量。10、什么操作对源RDD和参数RDD求并集后返回一个新的RDD。union。11、action算子包括reduce、collect、count、first。12、什么是指一个父RDD的Partition会被多个子RDD的Partition所使用：宽依赖。13、什么即是RDD的分片函数：Partitioner。14、什么操作会在一个已存在的 RDD上创建一个新的 RDD，但实际的计算并没有执行，仅仅记录操作过程：transformations。15、transform算子包括map、filter、flatMap、mapPartitions。16、什么函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量：Partitioner。

第五章1.Spark SQL的常用操作包括哪几个方面：字段统计、条件查询、数据排序、数据去重2.使用什么给DataFrames数据去重distinct。3.什么以 RDD 为基础，是一种分布式数据集，与传统数据库中的二维表格相类似：DataFrame。4.使用什么给DataFrames数据分组：groupBy。5.Spark SQL取得的优势包括哪几个方面：数据兼容、性能优化、组件扩展。6.什么是由DataFrame派生出来的，首先必须先出创建DataFrame，然后通过登录Spark SQL temp table就可以使用语句了：Spark SQL。7使用什么给DataFrames数据排序：orderBy。8.Spark SQL执行包括了什么：Operation、Data Source、Result、Optimize。9.什么被创建时必须定义Schema，定义每一个字段名与数据类型，因而可以用字段名进行统计：DataFrame。10.使用什么给DataFrames数据计数：count

第六章1.什么用于流式数据的处理，使得构建可扩展容错流应用程序变得容易。Spark Streaming。2.在使用SparkStreaming进行流处理之前需要进行初始化，必须创建一个流上下文对象：StreamingContext。3.什么是SparkStreaming提供的最基础的抽象。它表示一系列的数据流，这些数据流可能来自于原始的输入。Discretized Streams。4.什么是对DStream中符合条件（符合返回true，否则返回false）的流数据进行筛选并返回DStream类型。filter。5. 什么是用来统计DStream源的每个RDD中元素的个数：count。6.什么是把相同key的DStream聚合在一起。reduceByKey。7.SparkStreaming具有的特点为，易于使用，高容错性，高吞吐量。8、SparkStreaming可以接收从什么数据源产生的数据：Socket、文件系统、Kafka、Flume。9、DStreams输出操作包括什么pprint、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles。10、DStreams转换操作包括：map、flatMap、filter、reduceByKey。

第七章1.模型评估种对于二分类问题，可将样例根据其真实类别和分类器预测类别划分为真正例、假正例、假负例、假正例。2.目前机器学习主流分为：监督学习，无监督学习，强化学习。3.在一次机器学习中，数据中有标签值，那么该学习就是监督学习。4.Spark MLib提供的高阶API包括：ML Algorithms、Featurization、Pipelines、Utilities。5.什么是指能学习极其复杂模式的多层神经网络：深度学习。6.什么分为分类树和回归树：回归树。7.什么是与线性回归相对应的一种分类方法，其算法的基本概念是由线性回归推导而出。逻辑回归。8.什么提供线性代数，统计学，数据处理等，Utilities。9.什么提供常用的学习算法，如分类，回归，聚类和协同过滤。ML Algorithms。10.机器学习中需要大量的数据，这些数据的组成可分为：特征、标签。11、机器学习中的算法常见的包括：分类、回归、聚类。12、什么是处理回归任务最常用的算法之一,该算法的形式十分简单，它期望使用一个超平面拟合数据集（只有两个变量的时候就是一条直线）。线性回归，

第八章：1.Spark项目中的什么模块用于图及图并行计算：GraphX。2.什么库是Databricks公司发布的基于Spark平台的并行图计算库：GraphFrames。3.什么可用于发现网络中环，经常用于社交网络，发现社交圈子，算法使用顶点ID标注图中每个连通体，将连通体中序号最小的顶点的ID作为连通体的ID：连通分量。4.什么用于确定通过图数据集中每个顶点的三角形数量。当计算三角形个数时，图都被作为无向图处理，平行边仅计算一次，自环则会被忽略。三角形计数5.GraphFrames实现的算法包括广度优先搜索、最短路径、三角形计数、连通分量

转载请标明出处

满满的干货

猜你喜欢