Unresolved Logical Plan
Spark使用Antlr将SQL/DataFrame 编译为一颗Unresolved Logical Plan(抽象语法树AST),树上的节点不带有数据类型等信息。SparkSqlAstBuilder类与此相关。
Resolved Logical Plan
Spark从Catalog获取表结构信息,并填充AST得到Resolved Logical Plan,这个过程通常称为Analysis。若表不存在之类错误,则返回错误。
Optimized Logical Plan
Spark进行一系列优化手段,例如谓词下推(Predicate Pushdown),Constant Folding(1 + 1运算转化为常量3),得到一个优化后的执行计划。
Physical Plans
RBO此时其作用,应用这些规则(Rule)后,得到多个物理执行计划。Spark再根据成本模型,选择一个最优物理执行计划。
Whole Stage CodeGen
将物理执行计划翻译为Java字节码。Spark 2.0引入该特性。
https://data-flair.training/blogs/spark-sql-optimization-catalyst-optimizer/