4、B-Tree

二、B+Tree（B-Tree变种）

主键索引的B+树逻辑结构：

物理结构：

一、索引的本质

索引是帮助MySQL高效获取数据的排好序的数据结构。
索引数据结构
- 二叉树
- 红黑树
- Hash表
- B-Tree

1、简单说明

下面图，如果查询col2列值为89的数据，可以顺序遍历所有记录查询。如果基于col2列创建的索引结构是一个二叉树，如果我们有查询select * from t where t.col2 = 89; 那我们查询时按照索引结构查询节点89，索引中如果存储了数据在磁盘的地址，就可以直接获取到数据。

2、二叉树：

mysql不用二叉树做索引结构。

按照二叉树，对于上图的col1列创建索引，会形成下面的结构，层级很高，查询效率极低。

我们要查询006节点，需要检索6次。

3、红黑树

mysql不用红黑树做索引结构。

红黑树的本质，是一个可以自动平衡的二叉树，全称就叫“二叉平衡树”。

我们要查询006节点，需要检索3次。

为什么不用红黑树存储索引？因为红黑树在大数量的时候（几十万、几百万条记录）它的高度不可控，高度太高那么查询效率会非常低。比如有500万条记录，高度可能20层，查询数据正好在叶子节点，那么可能就要检索20次。

为了改进存储结构，我们可以希望每个节点上面不仅仅存一个数据，而是很多，这样树的层级就少了。下面就看看B树。

4、B-Tree

叶节点具有相同的深度，叶节点的指针为空。
所有索引元素不重复
节点中的数据索引从左到右递增排序。

二、B+Tree（B-Tree变种）

非叶子节点不存储data，只存储索引（冗余），可以放更多的索引。
叶子节点包含所有索引字段。
叶子节点用指针连接（双向指针），提高区间访问的性能。

mysql关系型数据库在查询方面有三大特性，归功于B+树这种数据结构：

1）范围查询

2）前缀匹配模糊查询

3）排序和分页

主键索引的B+树逻辑结构：

在叶子节点一层，所有记录的主键按照从小到大的顺序排列，并且形成了一个双向链表，叶子节点的每一个Key指向一条记录。

非叶子节点取的是叶子节点里面Key的最小值。这意味着所有非叶子节点的Key都是冗余的叶子节点。同一层的非叶子节点也互相串联，形成了一个双向链表。

物理结构：

索引用到的B+树只是一个物理结构，索引最终还是要存在磁盘上。下面以InnoDB引擎为例，看一下如何实现B+树的存储。

以“块”为单位对磁盘进行读写，InnoDB默认定义的块大小是16KB，通过innodb_page_size参数指定。这里所说的“块”是一个逻辑单位，而不是指磁盘扇区的物理块。块是InnoDB读写磁盘的基本单位，InnoDB每一次磁盘I/O，读取的都是16KB的整数倍的数据。无论是叶子节点，还是非叶子节点，都会装载Page里。Innodb为每个Page赋予一个全局的32位的编号，所以InnoDB的存储容量的上线是64TB（2的32次方 x 16KB）。

16KB是一个什么概念？如果用来装非叶子节点，一个Page大概可以装1000个Key，意味着B+数有1000个分叉；如果用来装叶子节点，一个Page大概可以装200记录，基于这种估算，一个三层的B+数可以存储多少数据量呢？【16GB】

B+树模拟

在网站上进行模拟B+树，我们设置节点最大4，分别插入001,002,003节点，得到下面一个节点的树。

当我们插入004的时候，会发现发生了节点分裂，因为我们设置了一个节点最大不能超过4个索引。

插入005，得到下面树，一个节点目前最大可以存3个索引数据。

插入006，因为节点又要超过3个数据了，又产生分裂，得到下面的树结构

mysql实际B+树配置情况

一个节点最大能存16k的数据，也就是一个节点能存储的数据量非常大，而且非叶子节点只存索引值，那么一个非叶子节点能存的索引数量就很多。节点上存储大量索引数据，树的层级会非常少，这样查询时能极大减少磁盘IO。查询数据的时候，先从根节点查询，把根节点数据都load到内存在进行数值匹配，然后在继续往下一级节点查询。

非叶子节点上面存储很多索引值，同时还有很多指针项，指向下面的节点，这个指针项（B+树上面图例中节点中白色部分）占用6个字节大小。

非叶子节点能存多少索引？如果用主键bigint 8字节，一个指针项占6个字节，那么一个非叶子节点能存索引1170个（16✖️1024 ➗ 14）。

叶子节点能存多少索引？叶子节点存储索引，还要存索引数据项data。这个data可能是数据所在磁盘的地址，也能是索引所在行的其他列字段数据，这个跟存储引擎有关。我们假设data数据要占用1kb，那么一个节点16k，能存16个索引元素。

一个三层的B+树，能存多少数据？ 1170✖️1170✖️16 = 2190万。也就是一张表如果有上千万条数据，索引对应B+树的高度也就3层。

索引的根节点一般会常驻内存，按照索引去查询的时候，也就1-2次io就能找到要的数据，性能非常强。