【恋上数据结构】MySQL的索引底层为何使用 B+树?

数据结构与算法笔记恋上数据结构笔记目录

B+树介绍

B+树 是 B树 的变体,常用于数据库和操作系统的文件系统

  • MySQL数据库的索引就是基于 B+树 实现的

B+树的特点:

  • 分为内部节点非叶子)、叶子节点 2 种节点;
    内部节点只存储 key,不存储具体数据
    叶子节点存储 key 和具体数据
  • 所有的叶子节点形成一条有序链表;
    在这里插入图片描述
  • m 阶 B+树 非根节点的元素数量 x:┌ m/2 ┐ ≤ x ≤ m

关于MySQL发音的官方说明
https://dev.mysql.com/doc/refman/8.0/en/what-is-mysql.html
The official way to pronounce “MySQL” is “My Ess Que Ell” (not “my sequel”),
but we do not mind if you pronounce it as “my sequel” or in some other localized way.

硬盘介绍

市面上常见的硬盘有:

  • 机械硬盘(Hard Disk Drive,HDD)
  • 固态硬盘(Solid State Drive,SSD)

在这里插入图片描述
后面的介绍针对机械硬盘

盘片(platter)、盘面(side)、读写磁头(head)

硬盘一般由多个盘片组成,每个盘片包含2个盘面,每个盘面有1个对应的读写磁头:盘面、磁头由上到下从0开始编号;
在这里插入图片描述

磁道(track)、扇区(sector)

盘面中的一圈圈灰色圆环为是一条条的磁道:磁道由外到内从0开始编号;

每条磁道上的一个弧段叫做一个扇区

  • 扇区是磁盘的最小读写单位
  • 一个扇区的大小通常是 512 字节(也有 4096 字节的)
    在这里插入图片描述

早期硬盘的扇区细节
每条磁道的扇区数相同

  • 所以外圈扇区的面积会比内圈扇区大

为了更好的读取数据,它们会存放相同的字节数

  • 所以外圈扇区的记录密度要比内圈小,会浪费大量的存储空间

硬盘的存储容量 = 磁头数 * 盘面磁道数 * 磁道扇区数 * 扇区字节数

柱面(cylinder)

相同编号的磁道形成一个圆柱,称为柱面

  • 磁盘的柱面数与一个盘面的磁道数是相等的
    在这里插入图片描述

磁盘块

磁盘块,在Windows中叫做 簇(cluster),在Linux中叫做 块( block )

  • 相邻的 2n 个扇区组合在一起,形成一个磁盘块
  • 操作系统对磁盘进行管理时,以磁盘块作为最小读写单位

注意

  • 磁盘块是操作系统中的一个虚拟概念
  • 扇区是磁盘上真实存在的物理区域

操作系统读取硬盘数据的过程

  1. 操作系统将 LBA 传送给磁盘驱动器并启动读取命令;
    LBA(Logical Block Address,逻辑块地址
    比如类似设备号4、磁头号4、磁道号8、扇区号16、扇区计数8这样的信息。
  2. 磁盘驱动器根据 LBA 将磁头移动到正确的磁道,盘片开始旋转,将目标扇区旋转到磁头下;
  3. 磁盘控制器将扇区数据等信息传送到一个处于磁盘界面的缓冲区;
  4. 磁盘驱动器向操作系统发出“数据就绪”信号;
  5. 操作系统从磁盘界面的缓冲区读取数据;
    既可以按照一个字节一个字节的方式读取,
    也可以启动 DMA(Direct Memory Access,直接内存访问)命令读取。

磁盘完成IO操作的时间

主要由寻道时间旋转延迟时间数据传输时间 3 部分构成:

  • 寻道时间(seek):软件
    将读写磁头移动至正确的磁道上所需要的时间,这部分时间代价最高
  • 旋转延迟时间(rotation):硬件
    盘片旋转将目标扇区移动到读写磁头下方所需要的时间,取决于磁盘转速
  • 数据传输时间(transfer):硬件
    完成传输数据所需要的时间,取决于接口的数据传输率,通常远小于前两部分消耗时间

决定时间长短的大部分因素是和硬件相关的,但所需移动的磁道数是可以通过操作系统来进行控制

  • 减少所需移动的磁道数是减少整个硬盘读写时间的有效办法
  • 合理安排磁头的移动以减少寻道时间就是磁盘调度算法的目的所在

查看硬盘信息

Windows

  • 如果是查看D盘,管理员权限打开命令行工具,输入fsutil fsinfo ntfsinfo d:
    在这里插入图片描述
  • 或者搜索框输入:系统信息
    在这里插入图片描述
    在这里插入图片描述

MySQL的索引底层为何使用B+树?

为了减小 IO操作 数量,一般把一个节点的大小设计成最小读写单位的大小

  • MySQL 的存储引擎 InnoDB 的最小读写单位是 16K

对比B树,B+树的优势是:

  • 每个节点存储的 key 数量更多,树的高度更低
  • 所有的具体数据都存在叶子节点上,所以每次查询都要查到叶子节点,查询速度比较稳定
  • 所有的叶子节点构成了一个有序链表,做区间查询时更方便
    例如查询某个范围内的数据,找到头结点后再通过链表往后找即可。

B树 与 B*树

B树:
在这里插入图片描述

B*树 是 B+树 的变体:给内部节点增加了指向兄弟节点的指针;

  • m阶 B*树 非根节点的元素数量 x:┌ 2m/3 ┐ ≤ x ≤ m

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43734095/article/details/105786002