Spark十三 Spark调优和调试

1 SparkConf配置机制

    1) SparkConf实例包含重载配置选项的字符串键值对,set()方法

    2) 配置优先级:代码中set() > spark-submit设置 > 配置文件的值 > 系统的默认值


2 执行部件:Jobs, Tasks, and Stages

1) 任务内部流程

从数据存储或已有RDD或数据混洗获取输入数据

执行转化操作计算新的RDD,执行行动操作计算结果

把输出写入到数据混洗文件中,或写入外部存储,或返回给驱动器程序

2) Spark执行时的流程

    > 用户代码定义RDD的DAG

    > 行动操作把DAG转为物理执行计划

    > 在集群中调度并运行任务


3 查找信息

1) Spark Web UI

2) 驱动器进程和执行器进程的日志


4 关键性能考量Key Performance Considerations

并行度

序列化格式

内存管理

硬件供给


猜你喜欢

转载自blog.csdn.net/weixin_42129080/article/details/80950723