大神优化spark

1.资源优化

部署spark集群中指定资源分配的默认参数
- SPARK_WORKER_CORES 核数
- SPARK_WORKER_MEMORY 内存大小
- SPARK_WORKER_INSTANCES 每台机器启动worker数
在提交application时给当前的application分配更多的资源
- 提交命令选项
  - --executor-cores
  - --executor-memory
  - --total-executor-cores
- 配置信息
  - spark.executor.cores
  - spark.executor.memory
  - spark.max.cores
- 动态分配资源
  - spark.shuffle.service.enabled true //启用External shuffle Service服务
  - spark.shuffle.service.port 7337 //Shuffle Service服务端口，必须和yarn-site中的一致
  - spark.dynamicAllocation.enabled true //开启动态资源分配
  - spark.dynamicAllocation.minExecutors 1 //每个Application最小分配的executor数
  - spark.dynamicAllocation.maxExecutors 30 //每个Application最大并发分配的executor数
  - spark.dynamicAllocation.schedulerBacklogTimeout 1s
  - spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 5s

2.并行度优化

读取HDFS中的数据时,降低block大小,相当于提高了RDD中partition的个数,也可以在读取文件时设置分区数sc.textFile(xx,numPartitions)
sc.parallelize(xxx, numPartitions)
sc.makeRDD(xxx, numPartitions)
sc.parallelizePairs(xxx, numPartitions)
repartions/coalesce
redecByKey/groupByKey/join ---(xxx, numPartitions)
spark.default.parallelism net set
spark.sql.shuffle.partitions---200
自定义分区器
如果读取数据是在sparkstreaming中
- Receiver: spark.streaming.blockInterval—200ms
- Direct:读取的topic的分区数

3,代码优化

避免创建重复的RDD
对多次使用的RDD进行持久化
尽量避免使用shuffle类的算子
- 对于一个RDD大.一个RDD小进行join操作时,可以将小的RDD用广播变量广播
使用map-side预聚合的shuffle操作
- 尽量使用有combiner的shuffle类算子(combiner的概念-->在map端,每个map task计算完毕后进行的局部聚合)
- 优点
  - 降低shuffle write写磁盘的数据量
  - 降低shuffle read拉取数据量的大小
  - 降低reduce端聚合的次数
- 含有combiner的shuffle类算子
  - reduceByKey,在某些场景中可以使用reduceByKey代替groupByKey
  - aggregateByKey
  - combinerByKey
尽量使用高性能的算子
- 使用reduceByKey替代groupByKey
- 使用mapPartition替代map
- 使用foreachPartition替代foreach
- filter后使用coalesce减少分区数
- 使用repartitionAndSortWithinPartitions替代repartition与sort类操作
- 使用repartition和coalesce算子操作分区
使用广播变量
- 需要在算子函数中使用外部变量的场景下运用广播功能来提升性能
- 若变量本身比较大,那么大量的变量副本在网络中传输的性能开销,以及在各个节点的executor中占用过多内存导致频繁的GC,都会极大的影响性能,建议使用广播功能,对该变量进行广播
- 广播后的变量,会保证每个executor的内存中,只主流一份变量副本,而executor中的task执行时共享该executor中的那份变量副本,这样可以大大减少变量副本的数量,从而减少网络传输的性能开销,以及减少对executor内存的占用开销,降低GC的频率

4,使用Kryo优化序列化性能

spark中用到序列化的地方
- 算子函数使用到外部变量时,该变量会被序列化后进行网络传输
- 将自定义类型作为RDD的泛型类型时,所有自定义类型对象,都会进行序列化,也要求自定义类必须实现Serializable接口
- 使用可序列化的持久化策略时,要用到序列化
Kryo序列化器介绍
- Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。所以Kryo序列化优化以后，可以让网络传输的数据变少；在集群中耗费的内存资源大大减少.对于spark中出现的这三种情况都可以运用Kryo机制进行序列化
- Spark之所以默认没有使用Kryo作为序列化类库，是因为Kryo要求最好要注册所有需要进行序列化的自定义类型，因此对于开发者来说，这种方式比较麻烦。
优化数据结构
- java中三种类型比较消耗内存
  - 对象,比较占用空间
  - 字符串
  - 集合类型
- 在Spark编码实现中，特别是对于算子函数中的代码，尽量不要使用上述三种数据结构，尽量使用字符串替代对象，使用原始类型（比如Int、Long）替代字符串，使用数组替代集合类型，这样尽可能地减少内存占用，从而降低GC频率，提升性能。
使用高性能的库fastutil
- fastutil是扩展了Java标准集合框架（Map、List、Set；HashMap、ArrayList、HashSet）的类库，提供了特殊类型的map、set、list和queue；fastutil能够提供更小的内存占用，更快的存取速度；我们使用fastutil提供的集合类，来替代自己平时使用的JDK的原生的Map、List、Set，好处在于，fastutil集合类，可以减小内存的占用，并且在进行集合的遍历、根据索引（或者key）获取元素的值和设置元素的值的时候，提供更快的存取速度。fastutil的每一种集合类型，都实现了对应的Java中的标准接口（比如fastutil的map，实现了Java的Map接口），因此可以直接放入已有系统的任何代码中。
- fastutil最新版本要求Java 7以及以上版本。

5.数据本地化

数据本地化的级别
- PROCESS_LOCAL
  - task要计算的数据在本进程(executor)内存中
- NODE_LOCAL
  - task所计算的数据在本节点所在的磁盘上
  - task所计算的数据在本节点其他executor进程的内存中
- NO_PREF
  - task所计算的数据在关系型数据库中
- RACK_LOCAL
  - task所计算的数据在同机架的不同节点的磁盘或者executor进程的内存中
- ANY
  - 跨机架
spark数据本地化调优
- 可以增加每次发送task的等待时间（默认都是3s），将3s倍数调大
- 等待时间不能调大很大，调整数据本地化的级别不要本末倒置，虽然每一个task的本地化级别是最高了，但整个Application的执行时间反而加长。
查看数据本地化的级别
- 通过日志或者WEBUI
内存调优
- JVM堆内存分为一块较大的Eden和两块较小的survivor,每次只使用Eden和其中一块survivor当回收时将Eden和Survivor中还存活着的对象一次性复制到另外一块Survivor上，最后清理掉Eden和刚才用过的Survivor。也就是说当task创建出来对象会首先往Eden和survivor1中存放，survivor2是空闲的，当Eden和survivor1区域放满以后就会触发minor gc小型垃圾回收，清理掉不再使用的对象。会将存活下来的对象放入survivor2中。
- 如果存活下来的对象大小大于survivor2的大小，那么JVM就会将多余的对象直接放入到老年代中
- 默认15岁，垃圾回收还是没有回收回去就会跑到老年代里面去了。
  
  这样会导致在老年代中存放大量的短生命周期的对象，老年代应该存放的是数量比较少并且会长期使用的对象，比如数据库连接池对象。这样的话，老年代就会满溢（full gc 因为本来老年代中的对象很少，很少进行full gc 因此采取了不太复杂但是消耗性能和时间的垃圾回收算法）。不管minor gc 还是 full gc都会导致JVM的工作线程停止。
- 堆内存不足产生的原因
  - 频繁的minor gc
  - 老年代中大量的短生命周期的对象会导致full gc。
  - gc 多了就会影响Spark的性能和运行的速度。
- JVM调优主要是降低gc时间，可以修改Executor内存的比例参数。
  - 提高executor总体内存的大小
  - 降低储存内存比例或者降低shuffle聚合内存比例
- shuffle调优
  - buffer大小——32KB
  - shuffle read拉取数据量的大小——48M
  - shuffle聚合内存的比例——20%
  - 拉取数据重试次数——5次
  - 重试间隔时间60s
  - Spark Shuffle的种类
  - SortShuffle bypass机制 200次
- 调节executor的堆外内存
  - spark默认的网络连接的超时时长是120s；如果卡住120s都无法建立连接的话，那么这个task就失败了。
  - 在./spark-submit提交任务的脚本里面添加：
    
    --conf spark.core.connection.ack.wait.timeout=300

6.解决数据倾斜

使用hive ETL预处理数据
- ETL预先对数据按照key进行聚合，或者是预先和其他表进行join），然后在Spark作业中针对的数据源就不是原来的Hive表了，而是预处理后的Hive表。此时由于数据已经预先进行过聚合或join操作了，那么在Spark作业中也就不需要使用原先的shuffle类算子执行这类操作了。这种方式属于治标不治本
过滤少数导致倾斜的key
- 如果我们判断那少数几个数据量特别多的key，对作业的执行和计算结果不是特别重要的话，那么干脆就直接过滤掉那少数几个key。比如，在Spark SQL中可以使用where子句过滤掉这些key或者在Spark Core中对RDD执行filter算子过滤掉这些key。如果需要每次作业执行时，动态判定哪些key的数据量最多然后再进行过滤，那么可以使用sample算子对RDD进行采样，然后计算出每个key的数量，取数据量最多的key过滤掉即可。
提高shuffle操作的并行度
- 增加shuffle read task的数量，可以让原本分配给一个task的多个key分配给多个task，从而让每个task处理比原来更少的数据。举例来说，如果原本有5个不同的key，每个key对应10条数据，这5个key都是分配给一个task的，那么这个task就要处理50条数据。而增加了shuffle read task以后，每个task就分配到一个key，即每个task就处理10条数据，那么自然每个task的执行时间都会变短了。
双重聚合
- 将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。
- 图例讲解
使用广播变量代替join
- 普通的join是会走shuffle过程的，而一旦shuffle，就相当于会将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。但是如果一个RDD是比较小的，则可以采用广播小RDD全量数据+map/filter算子来实现与join同样的效果，也就是map join，此时就不会发生shuffle操作，也就不会发生数据倾斜。
采样倾斜可以并分拆join操作
- 对包含少数几个数据量过大的key的那个RDD，通过sample算子采样出一份样本来，然后统计一下每个key的数量，计算出来数据量最大的是哪几个key。然后将这几个key对应的数据从原来的RDD中拆分出来，形成一个单独的RDD，并给每个key都打上n以内的随机数作为前缀，而不会导致倾斜的大部分key形成另外一个RDD。接着将需要join的另一个RDD，也过滤出来那几个倾斜key对应的数据并形成一个单独的RDD，将每条数据膨胀成n条数据，这n条数据都按顺序附加一个0~n的前缀，不会导致倾斜的大部分key也形成另外一个RDD。再将附加了随机前缀的独立RDD与另一个膨胀n倍的独立RDD进行join，此时就可以将原先相同的key打散成n份，分散到多个task中去进行join了。而另外两个普通的RDD就照常join即可。最后将两次join的结果使用union算子合并起来即可，就是最终的join结果。
- 图例讲解
使用随机前缀和扩容RDD进行join
- 该方案的实现思路基本和“解决方案六”类似，首先查看RDD/Hive表中的数据分布情况，找到那个造成数据倾斜的RDD/Hive表，比如有多个key都对应了超过1万条数据。然后将该RDD的每条数据都打上一个n以内的随机前缀。同时对另外一个正常的RDD进行扩容，将每条数据都扩容成n条数据，扩容出来的每条数据都依次打上一个0~n的前缀。最后将两个处理后的RDD进行join即可。
- 图例讲解

7.spark故障解决

shuffle file cannot find：磁盘小文件找不到
- connection timeout ----shuffle file cannot find
  - 提高建立连接的超时时间，或者降低gc，降低gc了那么spark不能堆外提供服务的时间就少了，那么超时的可能就会降低。
- 1) fetch data fail ---- shuffle file cannot find
  - 提高拉取数据的重试次数以及间隔时间。
- 1) OOM/executor lost ---- shuffle file cannot find
  - 提高堆外内存大小，提高堆外内存大小。
reduce OOM
- BlockManager拉取的数据量大，reduce task处理的数据量小
- 解决方法\
  - 降低每次拉取的数据量
  - 提高shuffle聚合的内存比例
  - 提高executor的内存大小

1.资源优化

2.并行度优化

3,代码优化

4,使用Kryo优化序列化性能

5.数据本地化

6.解决数据倾斜

7.spark故障解决

猜你喜欢