chapter05_查询处理和查询优化_2_关系数据库系统的查询优化方式

查询优化技术

(1) 代数优化

(2) 基于存储路径的优化

(3) 基于代价估算的优化

整体过程：

将查询转换成语法树；

根据关系的等价变化规则对语法树进行代数优化；

选择底层的操作算法，对于语法树中的每个操作，根据存储路径、数据存储分布、存储数据的聚簇等信息选择具体的执行算法；

生成查询计划，查询计划由一系列内部操作组成，这些内部操作按照一定的次序构成不同的执行方案，估算每个执行方案的代价，选择最小的一个。
代数优化策略

(1) 基本原则

减少查询处理的中间结果的大小

(2) 先执行投影、选择等操作，后执行联接、笛卡尔积等操作

(3) 先做小关系之间的联接，后做与大关系的联接

(4) 一般系统都采用__基于规则的启发式查询优化方法__

一般的规则包括：

1° 尽可能早的进行选择操作

2° 投影操作和选择操作尽量同时进行，减少扫描关系的次数

3° 将投影和其前或其后的联接操作同时进行，避免因为去掉某些属性而重复扫描

4° 将某些联接操作同在它前面的笛卡尔积结合起来，合并成为一个联接操作(特别是等值连接的情况)

5° 存储公共子表达式(此时要考虑子表达式结果集的大小、从外存中读入结果集的时间)

(5) 关系代数表达式的查询优化是由DBMS的DML编译器自动完成的

(6) 代数优化只改变查询语句中操作的次序和组合，不涉及底层的存取路径
基于存储路径的优化

(1) 每种操作有多种实现算法，具体选择哪种算法，要根据底层的存储路径的方式

(2) 选择操作的启发式规则

1° 小的关系一律顺序扫描，即便选择的列上有索引

2° 如果选择条件是 <主键=值>，则查询结果最多是一个元组（主键的唯一性），此时使用主键索引（一般的RDBMS会自动创建主键索引，例如MYSQL）

3° 如果选择条件是 <非主属性=值>，并且选择列上有索引。若估算查询结果元组数目少，则使用索引；若估算查询结果元组数目多，则使用顺序扫描

4° 如果选择条件是非等值查询，同3°

5° 对于AND合取条件，如果有涉及这些属性的组合索引，使用组合索引扫描；如果某些属性上有索引，则对其进行索引扫描后验证；没有任何索引，使用顺序扫描

6° 对于OR析取条件，只要任意一个条件没有索引，就只能用顺序扫描的方式

7° 如果关系按照条件中的属性进行排序且为关于该属性的等值查询，在使用顺序扫描的地方可以考虑二分查找

(3) 连接操作的启发式规则

1° 如果两个表都按照连接属性排序，则使用排序合并

2° 如果一个表在连接属性上有索引，使用索引连接

3° 如果1°,2°都不满足，其中一个表较小，则使用__散列连接__

4° 嵌套循环时，外循环使用记录数少的表
基于代价估算的因素

(1) 访问存储器的代价

(2) 生成中间文件的存储代价

(3) 计算代价：搜索、排序、合并、计算等的代价

(4) 内存使用代价：查询执行需要的内存缓冲区数目

(5) 通信代价：数据在不同数据库结点中传送的代价
为了估算代价，DBMS会在数据字典中存储查询优化器所需的各种统计信息

例如：元组总数、元组占用的块数、平均元组长度、块因子（一个块中能够存放的元组数量）、连接选择性（？？？）、索引的层数、索引的选择基数、索引的叶结点数
具体估算代价的计算 P111
__解释执行__的系统一般包括代数优化 + 基于规则的启发式存储路径优化，全面的优化会延长系统响应时间，所以只能做部分优化；

__编译执行__的系统查询优化和查询执行分开，因此可以使用以上的全部优化方法进行比较精细复杂的优化。

chapter05_查询处理和查询优化_2_关系数据库系统的查询优化方式

猜你喜欢