数据结构之“树”——二叉树、红黑树、B树、B+树、B*树

这篇文章主要简单总结下二叉树、红黑树、B树、B+树、B*树的基本结构和原理。

一、二叉树

二叉树就是度不超过2的树(每个结点最多有两个子结点)。
二叉树是有序树（二叉排序树），若将其左右子树颠倒，则成为另一棵不同的二叉树。
二叉树的遍历有三种，分为前序、中序、后序（相对于根节点）。如图：
在这里插入图片描述

根节点-左节点-右节点
左节点-根节点-右节点
左节点-右节点-根节点

1、满二叉树

子节点全满。
在这里插入图片描述

2、完全二叉树

除最后一层外，所有层都是满节点，最后一层所有结点集中在最左边。满二叉树演变而来。
在这里插入图片描述

3、二叉查找树（二叉排序树）

最基础的二叉树是无序的，查询效率极低。排序之后的二叉树为二叉查找树，也是二叉排序树。
二叉查找树：左子树上的节点都小于根节点，右子树上所有节点的值都大于根节点。左、右子树也分别为二叉排序树。
在这里插入图片描述

4、平衡二叉树（AVL树）

在二叉查找树中，任一节点对应的两棵子树的最大高度差为 1，这样的二叉查找树称为平衡二叉树。其中左右子树的高度差也有个专业的叫法：平衡因子。左右节点都得为平衡二叉树。
在这里插入图片描述
平衡二叉树是采用二分查找法思维把数据按规则组装成一个树形结构的数据，用这个树形结构的数据减少无关数据的检索，大大的提升了数据检索的速度。

5、二叉树的左旋、右旋

左旋：是以节点的"右分支"为轴，进行逆时针旋转。
右旋：是以节点的“左分支"为轴，进行顺时针旋转。
在这里插入图片描述
为了达到平衡，二叉树会进行旋转操作。----一旦由于插入或删除导致左右子树的高度差大于1，此时就需要旋转某些节点调整树高度，使其再次达到平衡状态，这个过程称为旋转再平衡。

二、红黑树

红黑树也是一种特殊的二分查找树，但是红黑树是可以不让树频繁的去旋转平衡，归根结底就一句话：
最长子树只要不超过最短子树的两倍就OK，添加了变色的行为来保证树的平衡。
具体要求如下：

①每个节点或者是黑色，或者是红色。
②根节点是黑色。
③每个叶子节点(NIL)是黑色。[注意：这里叶子节点，是指为空(NIL或NULL)的叶子节点]
④如果一个节点是红色的，则它的子节点必须是黑色的。
⑤从一个节点到该节点的子孙节点的所有路径上包含相同数目的黑节点。[这里指到叶子节点的路径]

如图：
在这里插入图片描述
红黑树的插入操作如下：
首先是先插入；插入后，以刚插入的节点作为当前平衡节点N，进行平衡操作。
图解如下：

三、B树

B树和平衡二叉树稍有不同的是B树属于多叉树又名平衡多路查找树(查找路径不只两个)，数据库索引技术里大量使用B树和B+树的数据结构。
B树属性如下：

每一个节点最多有 m 个子节点
每一个非叶子节点（除根节点）最少有 ⌈m/2⌉ 个子节点，⌈m/2⌉表示向上取整。
如果根节点不是叶子节点，那么它至少有两个子节点
有 k 个子节点的非叶子节点拥有 k − 1 个键
所有的叶子节点都在同一层

我们拿数据库索引来看，先看图：
在这里插入图片描述
这是典型的B树了，以查22为例，查询流程如下;
1、根节点查询，读入第一次内存（1次磁盘I/O）；
2、区间为13-35，找到磁盘1的指针p2，可以找到磁盘3，读入第二次内存（2次磁盘I/O）；
3、区间为20-33，找到磁盘3的指针p2，可以找到磁盘7，读入第三次内存（3次磁盘I/O）；
4、在磁盘7中找到22。
大致流程如上，但是随之而来的缺点也很明显：
1、每个节点都存储data，磁盘大小有限，data大的话，会导致存储的数据有限。
2、数据数量比较多的时候，树的深度会变大，I/O次数会增加。

InnoDB 这种存储引擎默认情况下读的是 16kb，一共读取了三个磁盘块，意味着一共读取了 48k 的数据，假如说上面的这些 p 指针和 16 这些 key 值都不需要占用额外的存储空间，一条数据占用 1kb 的空间，那意味着当前节点里面最多存 16 条数据，下一个磁盘块也是 16 条，第三个磁盘块也是 16 条，计算一下的话是 16×16×16，也就是 4096 条数据。这个支撑的数据量也太少了。在生产环境中随便的一个 mysql 表都要上百万条，不可能是只有几万或者几千，这不太可能，这时候就要思考 b 树有什么问题了。

四、B+树

为了解决以上问题，引入了B+树。
在这里插入图片描述
如图所示，数据存储再叶子节点中，这样就不会造成存储空间有限的问题了。

读取的数据还是 16kb、16kb、16kb，假设，key 值加上 p 指针一共占用 10 个字节，那么 16kb 就是是 16×1000/10,得到结果为 1600，第二层也是 1600，第三层还是 16，所以最终的结果为 40960000 条数据，达到千万级别。而刚刚 B 树是 4096，完全不是一个量级。因此，在三到四层的 B+树中，基本可以支持千万级别数据量的存储。

MySQL用的就是B+树。

五、B*树

是B+树的变体，在B+树的非根和非叶子结点再增加指向兄弟的指针。
在这里插入图片描述

B*树定义了非叶子结点关键字个数至少为(2/3)*M，即块的最低使用率为2/3（代替B+树的1/2）；

B+树的分裂：当一个结点满时，分配一个新的结点，并将原结点中1/2的数据复制到新结点，最后在父结点中增加新结点的指针；B+树的分裂只影响原结点和父结点，而不会影响兄弟结点，所以它不需要指向兄弟的指针；
B*树的分裂：当一个结点满时，如果它的下一个兄弟结点未满，那么将一部分数据移到兄弟结点中，再在原结点插入关键字，最后修改父结点中兄弟结点的关键字（因为兄弟结点的关键字范围改变了）；如果兄弟也满了，则在原结点与兄弟结点之间增加新结点，并各复制1/3的数据到新结点，最后在父结点增加新结点的指针。