SparkSQL学习- SparkSQL编译和执行过程

Unresolved Logical Plan

Spark使用Antlr将SQL/DataFrame 编译为一颗Unresolved Logical Plan(抽象语法树AST),树上的节点不带有数据类型等信息。SparkSqlAstBuilder类与此相关。

Resolved Logical Plan

Spark从Catalog获取表结构信息,并填充AST得到Resolved Logical Plan,这个过程通常称为Analysis。若表不存在之类错误,则返回错误。

Optimized Logical Plan

Spark进行一系列优化手段,例如谓词下推(Predicate Pushdown),Constant Folding(1 + 1运算转化为常量3),得到一个优化后的执行计划。

Physical Plans

RBO此时其作用,应用这些规则(Rule)后,得到多个物理执行计划。Spark再根据成本模型,选择一个最优物理执行计划。

Whole Stage CodeGen

将物理执行计划翻译为Java字节码。Spark 2.0引入该特性。

https://data-flair.training/blogs/spark-sql-optimization-catalyst-optimizer/

猜你喜欢

转载自blog.csdn.net/chncaesar/article/details/81142442
今日推荐