执行一条 select 语句,期间会发生什么?

// 在 product 表中,查询 id = 1 的记录
select * from product where id = 1;

MySQL 执行流程是怎么样的?

MySQL 查询语句的流程,可以看到 MySQL 内部架构里的各个功能模块:

 可以看到,MySQL的架构共分为两层:Server 层和存储引擎层

  • Server层负责建立连接、分析和执行SQL。MySQL大多数的核心功能模块都在这实现,主要包括连接器、查询缓存、解析器、预处理器、优化器、执行器等。另外,所有的内置函数(如时间、日期、数学和加密函数等)和所有跨存储引擎的功能(如存储过程、触发器、视图等)都在 Server 层实现。
  • 存储引擎层负责数据的存储和提取。支持 InnoDB、MyISAM、Memory 等多个存储引擎,不同的存储引擎共有一个Server 层。现在最常用的存储引擎是 InnoDB,从 MySQL 5.5 版本开始,InnoDB 成为了MySQL的默认存储引擎。

第一步:连接器

如果在 Linux操作系统里要使用 MySQL ,那第一步要先连接 MySQL服务,然后才能执行 SQL语句,普遍我们都是使用下面这条命令进行连接:

# -h 指定 MySQL 服务得 IP 地址,如果是连接本地的 MySQL服务,可以不用这个参数;
# -u 指定用户名,管理员角色名为 root;
# -p 指定密码,如果命令行中不填写密码(为了密码安全,建议不要在命令行写密码),就需要在交互对话里面输入密码
mysql -h$ip -u$user -p

连接过程需要先经过 TCP 三次握手,因为 MySQL 是基于 TCP 协议进行传输的,如果 MySQL 服务并没有启动,则会收到如下报错:

 如果MySQL服务正常运行,完成 TCP 连接的建立后,连接器就要开始验证用户名和密码,如果用户名或密码不对,就收到一个 “Access denied for user” 的错误,然后客户端程序结束运行。

如果用户密码都没有问题,连接器就会获取该用户的权限,然后保存起来,后续用户在此连接里的任何操作,都会基于连接开始时读到的权限进行权限逻辑判断。

所以,如果一个用户已经建立了连接,即使管理员中途修改了该用户的权限,也不会影响已经存在连接的权限。修改完成后,只有再新建的连接才会使用新的权限设置。

如何查看MySQL服务被多少个客户端连接了?

可以执行 show processlist 命令进行查看

 比如上图的显示结果,共有两个用户名为 root 的用户连接了 MySQL 服务,其中 id 为 6 的用户的Command 列的状态为 Sleep ,这意味着该用户连接完 MySQL 服务就没有再执行过任何命令,也就是说这是一个空闲的连接,并且空闲的时长为 736 秒(Time 列)。

空闲连接会一直占用着吗?

当然不是,MySQL定义了空闲连接的最长空闲时长,由 wait_timeout 参数控制的,默认是8 小时,如果空闲连接超过了这个时间,连接器就会自动断开

 我们自己也可以手动断开空闲的连接,使用的是 kill connection + id 的命令。

mysql> kill connection +6;
Query OK, 0 rows affected (0.00 sec)

处于一个空闲状态的连接被服务端主动断开后,这个客户端并不会马上知道,等到客户端在发起下一个请求的时候,才会收到这样的报错:“ERROR 2013(HY000): Lost connection to MySQL server during query”

 MySQL的连接数有限制吗?       

MySQL服务支持的最大连接数由 max_connections 参数控制,超过这个值,系统就会拒绝接下来的连接请求,并报错提示 “Too many connections”

 MySQL的连接也和 HTTP一样,由长连接也有段连接的概念,区别如下:

// 短连接
连接 mysql 服务(TCP 三次握手)
执行sql
断开 mysql 服务(TCP 四次挥手)

// 长连接
连接 mysql 服务(TCP 三次握手)
执行sql
执行sql
执行sql
....
断开 mysql 服务(TCP 四次挥手)

可以看到,使用长连接的好处就是可以减少建立连接和断开连接的过程,所以一般是推荐使用长连接

但是,使用长连接后可能会占用内存增多,因为MySQL在执行查询过程中临时使用内存管理连接对象,这些连接对象资源只有在连接断开的时候才会释放。如果长连接累计很多,将导致MySQL服务占用内存太大,有可能会被系统强制杀掉,这样会发生MySQL服务异常重启的现象。

如何解决长连接占用内存的问题?

两种解决方式:

第一种,定期断开长连接。既然断开连接后就会释放连接占用的内存资源,那么我们可以定期断开长连接。

第二种,客户端主动重置连接。MySQL 5.7 版本实现了 mysql_reset_connection() 函数的接口,这个接口函数不是命令,当客户端执行了一个很大的操作之后,在代码里调用 mysql_reset_connection 函数来重置连接,达到释放内存的效果。这个过程不需要重连和重新做权限验证,但是会将连接恢复到刚刚创建完时的状态。

至此,连接器的工作完成了,简单总结一下:

  • 与客户端进行TCP三次握手建立连接
  • 校验客户端的用户名和密码,如果用户名或密码不对,则会报错
  • 如果用户名和密码都对了,会读取该用户的权限,然后后面的权限逻辑判断都基于此时读取到的权限。

第二步:查询缓存

连接器的工作完成后,客户端就可以向MySQL服务发送SQL语句了,MySQL服务收到SQL语句后,就会解析出 SQL 语句的第一个字段,看看是什么类型的语句。

如果 SQL 是查询语句(select语句) ,MySQL会先去查询缓存(Query Cache)里查找缓存数据,看看之前有没有执行过这一条命令,这个查询缓存是以key_value形式保存在内存中的,key 是以 SQL 查询语句,value 为 SQL 语句查询的结果。

如果查询的语句命中查询缓存,那么就会直接返回value 给客户端,如果查询的语句没有命中查询缓存,那么就要往下继续执行,等执行完成后,查询的结果就会被放入查询缓存中。

这么看,查询缓存是挺有用的,但实际上查询缓存很鸡肋

对于更新比较频繁的表,查询缓存命中率很低,因为只要有一个表有更新的操作,那么这个表的查询缓存就会被清空。如果刚缓存了一个查询结果很大的数据还没有被使用的时候,刚好这个时候该表有更新操作,查询缓存就清空了。

所以,MySQL 8.0 版本直接将查询缓存删掉了,也就是说 MySQL 8.0 开始,执行一条 SQL 查询语句,不会再走到查询缓存这个阶段了。

对于 MySQL 8.0 之前的版本,如果想关闭查询缓存,我们可以通过将参数 query_cache_type 设置成 DEMAND。


第三步:解析 SQL

在正式执行 SQL 查询语句之前,MySQL 会先对 SQL 语句做解析,这个工作交由 [解析器] 来完成。

解析器

解析器会做两件事情:

第一件事情:词法分析。MySQL会根据输入的字符串识别出关键字出来,构建出 SQL 语法树,这样方便后面模块获取 SQL类型、表名、字段名、where 条件等等。

第二件事情:语法分析。根据词法分析的结果,语法解析器会根据语法规则,判断输入的这个 SQL语句是否满足 MySQL 语法。

如果我们输入的 SQL语法不对,就会在解析器这个阶段报错。比如,下面这条查询语句,把 from 写成 form ,这时 MySQL 解析器就会给出报错。

 但是注意,表不存在或者字段不存在,并不是解析器里做的,解析器只负责构建语法树和检查语法,但是不会查表或者字段存不存在


第四步:执行 SQL

经过解析器后,接着就要进入执行 SQL 查询语句的流程了,每条 SELECT 查询语句流程主要可以分为下面三个阶段:

  • prepare阶段,也就是预处理阶段
  • optimize阶段,也就是优化阶段
  • execute阶段,也就是执行阶段

预处理器

预处理器的工作:

  • 检查 SQL 查询语句中的表或者字段是否存在
  • SELECT  * 中的 * 符号,扩展为表上的所有列

下面这条查询语句,test 表是不存在的,这时候MySQL就会在执行 SQL 查询语句的 prepare 阶段中报错。

mysql> select * from test;
ERROR 1146 (42S02): Table 'mysql.test' doesn't exist

优化器

经过预处理阶段后,还需要为 SQL 查询语句制定一个执行计划,这个工作由 [优化器] 完成。

优化器主要负责将 SQL 查询语句的执行方案确定下来,比如在表里有多个索引的时候,优化器就会基于查询成本的考虑,来决定选择使用哪个索引。

要想知道优化器选择了哪个索引,我们可以在查询语句最前面加个 explain 命令,这样就会输出这条 SQL 语句的执行计划,然后执行计划中的 key 就表示执行过程中使用了哪个索引,比如下图的 key 为 PRIMARY 就是使用了主键索引。

如果查询语句的执行计划里的 key 为 null 说明没有使用索引,那就会全表扫描 (type = ALL),这种查询扫描的方式是效率最低档次的,如下图:

 这张 product 表只有一个索引就是主键,现在在表中将 name 设置为普通索引(二级索引)。

 这时 product 表就有主键索引(id)和普通索引(name)。假设执行了这条查询语句:

select id from product where id > 1  and name like 'i%';

这条查询语句的结果既可以使用主键索引,也可以使用普通索引,但是执行的效率会不同。这时,就需要优化器来决定使用哪个索引了。

很显然这条查询语句是覆盖索引,直接在二级索引就能找到结果(因为二级索引的B+树的叶子结点的数据存储的是主键值),就没必要再主键索引查找了,因为查询主键索引的B+ 树的成本大,优化器基于查询成本的考虑,会选择查询代价小的普通索引

在下图中执行计划,我们可以看到,执行过程中使用了普通索引(name),Exta 为 Using index,这就是表明使用了覆盖索引优化。

 执行器

 经历了优化器后,就确定了执行方案,接下来 MySQL 就真正开始执行语句了,这个工作是由 [执行器] 完成的。在执行过程中,执行器就会和存储引擎交互了,交互是以记录为单位的。

接下来,用三种方式执行过程

  • 主键索引查询
  • 全表扫描
  • 索引下推

主键索引查询
select * from product where id = 1;

这条查询语句的查询条件使用了主键索引,而且是等值查询,同时主键 id 是唯一的,不会有 id 相同的记录,所以优化器决定选用访问类型为 const 进行查询,也就是使用主键索引查询一条记录,那么执行器与存储引擎的执行流程是这样的:

  • 执行第一次查询,会调用 read_first_record 函数指针指向的函数,因为优化器选择的访问类型为 const ,这个函数指针被指向为 InnoDB 引擎索引查询的接口,把条件 id = 1 交给存储引擎让存储引擎定位符合条件的第一条记录
  • 存储引擎通过主键索引的 B+ 树结构定位到 id = 1的第一条记录,如果记录是不存在的,就会向执行器上报记录找不到的错误,然后查询结束。如果记录是存在的,就会将记录返回给执行器;
  • 执行器从存储引擎读到记录后,接着判断记录是否符合查询条件,如果符合则发送给客户端,如果不符合则跳过该记录。
  • 执行器查询的过程是一个 while 循环,所以还会再查一次,但是这次因为不是第一次查询了,所以会调用 read_record 函数指针指向的函数,因为优化器选择的访问类型为 const,这个函数指针被指向为一个永远返回 - 1 的函数,所以当调用该函数的时候,执行器就退出循环,也就是结束查询了。

全表扫描
select * from product where name = 'iphone';

这条查询语句的查询条件没有用到索引,所以优化器决定选用访问类型为 ALL 进行查询,也就是全表扫描的方式查询,那么这时执行器与存储引擎的执行流程是这样的:

  • 执行器第一次查询,会调用 read_first_record 函数指针指向的函数,因为优化器选择的访问类型为 all,这个函数指针被指向为 InnoDB 引擎全扫描的接口,让存储引擎读取表中的第一条记录
  • 执行器会判断读到的这条记录的 name 是不是 iphone,如果不是则跳过;如果是则将记录发给客户的(是的没错,Server 层每从存储引擎读到一条记录就会发送给客户端,之所以客户端显示的时候是直接显示所有记录的,是因为客户端是等查询语句查询完成后,才会显示出所有的记录)。
  • 执行器查询的过程是一个 while 循环,所以还会再查一次,会调用 read_record 函数指针指向的函数,因为优化器选择的访问类型为 all,read_record 函数指针指向的还是 InnoDB 引擎全扫描的接口,所以接着向存储引擎层要求继续读刚才那条记录的下一条记录,存储引擎把下一条记录取出后就将其返回给执行器(Server层),执行器继续判断条件,不符合查询条件即跳过该记录,否则发送到客户端;
  • 一直重复上述过程,直到存储引擎把表中的所有记录读完,然后向执行器(Server层) 返回了读取完毕的信息
  • 执行器收到存储引擎报告的查询完毕的信息,退出循环,停止查询

至此,这个语句就执行完成了。

索引下推

(MySQL 5.6 推出的查询优化策略)索引下推能够减少二级索引在查询时的回表操作,提高查询的效率,因为它将 Server 层部分负责的事情,交给存储引擎层去处理了。

举一个具体的例子,方便大家理解,这里一张用户表如下,对 age 和 reward 字段建立了联合索引(age,reward):

 现在有下面这条查询语句:

select * from t_user  where age > 20 and reward = 100000;

联合索引当遇到范围查询 (>、<) 就会停止匹配,也就是 age 字段能用到联合索引,但是 reward 字段则无法利用到索引

那么,不使用索引下推(MySQL 5.6 之前的版本)时,执行器与存储引擎的执行流程是这样的:

  • Server 层首先调用存储引擎的接口定位到满足查询条件的第一条二级索引记录,也就是定位到 age > 20 的第一条记录;
  • 存储引擎根据二级索引的 B+ 树快速定位到这条记录后,获取主键值,然后进行回表操作,将完整的记录返回给 Server 层;
  • Server 层在判断该记录的 reward 是否等于 100000,如果成立则将其发送给客户端;否则跳过该记录;
  • 接着,继续向存储引擎索要下一条记录,存储引擎在二级索引定位到记录后,获取主键值,然后回表操作,将完整的记录返回给 Server 层;
  • 如此往复,直到存储引擎把表中的所有记录读完。

可以看到,没有索引下推的时候,每查询到一条二级索引记录,都要进行回表操作,然后将记录返回给 Server,接着 Server 再判断该记录的 reward 是否等于 100000。

而使用索引下推后,判断记录的 reward 是否等于 100000 的工作交给了存储引擎层,过程如下 :

  • Server 层首先调用存储引擎的接口定位到满足查询条件的第一条二级索引记录,也就是定位到 age > 20 的第一条记录;
  • 存储引擎定位到二级索引后,先不执行回表操作,而是先判断一下该索引中包含的列(reward列)的条件(reward 是否等于 100000)是否成立。如果条件不成立,则直接跳过该二级索引。如果成立,则执行回表操作,将完成记录返回给 Server 层。
  • Server 层在判断其他的查询条件(本次查询没有其他条件)是否成立,如果成立则将其发送给客户端;否则跳过该记录,然后向存储引擎索要下一条记录。
  • 如此往复,直到存储引擎把表中的所有记录读完。

可以看到,使用了索引下推后,虽然 reward 列无法使用到联合索引,但是因为它包含在联合索引(age,reward)里,所以直接在存储引擎过滤出满足 reward = 100000 的记录后,才去执行回表操作获取整个记录。相比于没有使用索引下推,节省了很多回表操作。


总结

执行一条 SQL 查询语句,期间发生了什么?

  • 连接器:建立连接,管理连接、校验用户身份;
  • 查询缓存:查询语句如果命中查询缓存则直接返回,否则继续往下执行。MySQL 8.0 已删除该模块;
  • 解析 SQL,通过解析器对 SQL 查询语句进行词法分析、语法分析,然后构建语法树,方便后续模块读取表名、字段、语句类型;
  • 执行 SQL:执行 SQL 共有三个阶段:
    • 预处理阶段:检查表或字段是否存在;将 select * 中的 * 符号扩展为表上的所有列。
    • 优化阶段:基于查询成本的考虑, 选择查询成本最小的执行计划;
    • 执行阶段:根据执行计划执行 SQL 查询语句,从存储引擎读取记录,返回给客户端;

猜你喜欢

转载自blog.csdn.net/qq_48626761/article/details/132510353