spark优化

1:“物尽其用”,但给spark分配多个机器后,先需配置spark-submit shell如下:

/usr/local/spark/bin/spark-submit \
--class com.spark.test.Top3UV \
--num-executors 3 \
--driver-memory 100m \
--executor-memory 100m \
--executor-cores 3 \
--files /usr/local/hive/conf/hive-site.xml \
--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \
/usr/local/jars/spTest-1.0-SNAPSHOT-jar-with-dependencies.jar \

executor的cpu核心数为3,并且executor数量为3,那么总cpu核心数就是9,task并行度推荐设置2~3倍的cpu-core才能“物尽其用”,因为难以保证所有task都在同一时间执行完成!
2:重复使用的Rdd,需要缓存:StorageLevel.MEMORY_AND_DISK_SER_2()

可选择:
(1)内存缓存(2)内存磁盘缓存(3)带有序列化的缓存(4)带有副本的缓存-》以防数据丢失,形如 _2。



猜你喜欢

转载自www.cnblogs.com/zzq-include/p/8933684.html
今日推荐