多路查找树(muitl-way search tree),其每一个节点的孩子数可以多于两个,且每一个节点处可以存储多个元素。主要有4中特殊形式。
一、2-3树
定义:其中的每一个节点都具有两个孩子(称为2节点)或者三个孩子(称为3节点)。
并且2-3树中所有的叶子都在同一层上。
一个2节点包含一个元素和两个孩子(或者没有孩子)。
一个3节点包含一小一大两个元素和三个孩子(或者没有孩子)。
1. 2-3树的插入实现
1)对于空树,插入一个2节点即可;
2)插入节点到一个2节点的叶子上。由于本身就只有一个元素,所以只需要将其升级为3节点即可。
3)插入节点到一个3节点的叶子上。因为3节点本身最大容量,因此需要拆分,且将树中两元素或者插入元素的三者中选择其一向上移动一层。
三种情况:
升级父节点
升级根节点
增加树高度
2. 2-3树的删除实现
1)所删元素位于一个3节点的叶子节点上,直接删除,不会影响树结构。
2)所删元素位于一个2节点上,直接删除,破坏树结构。
分为四种情况:
此节点双亲也是2节点,且拥有一个3节点的右孩子;
此节点的双亲是2节点,它右孩子也是2节点;
此节点的双亲是3节点;
当前树是一个满二叉树,降低树高;
3)所删元素位于非叶子的分支节点。此时按树中序遍历得到此元素的前驱或后续元素,补位。
分支节点是2节点
分支节点是3节点
二、2-3-4树
2-3-4树是2-3树的扩展,包括了4节点的使用,一个4节点包含小中大三个元素和四个孩子(或没有孩子)。
1. 2-3-4树插入实现
构建一个数组为{7,1,2,5,6,9,8,4,3}的2-3-4树的过程
2. 2-3-4树删除实现
删除顺序使1,6,3,4,5,2,9
三、B树(B-树)
B树(B-树)是一种平衡的多路查找树。2-3树和2-3-4树都是B树的特例。节点最大的孩子数组称为B树的阶(order),因此,2-3树是3阶B树,2-3-4树是4阶B树。
比如说要查找7,首先从外存读取得到根节点3,5,8三个元素,发现7不在,但是5、8之间,因此就通过A2再读取外存的6,7节点找到结束。
B树的插入和删除和2-3树、2-3-4树类似。
B树的数据结构为内外存的数据交互准备的。当要处理的数据很大时,无法一次全部装入内存。这时对B树调整,使得B树的阶数与硬盘存储的页面大小相匹配。比如说一棵B树的阶为1001(即1个节点包含1000个关键字),高度为2(从0开始),它可以存储超过10亿个关键字(1001x1001x1000+1001x1000+1000),只要让根节点持久的保留在内存中,那么在这颗树上,寻找某一个关键字至多需要两次硬盘的读取即可。
对于n个关键字的m阶B树,最坏情况查找次数计算
第一层至少1个节点,第二层至少2个节点,由于除根节点外每个分支节点至少有⌈m/2⌉棵子树,则第三层至少有2x⌈m/2⌉个节点。。。这样第k+1层至少有2x(⌈m/2⌉)^(k-1),实际上,k+1层的节点就是叶子节点。若m阶B树有n个关键字,那么当你找到叶子节点,其实也就等于查找不成功的节点为n+1,因此
n+1>=2x(⌈m/2⌉)^(k-1),即
在含有n个关键字的B树上查找时,从根节点到关键字节点的路径上涉及的节点数不超多
四、B+树
下图B树,我们要遍历它,假设每个节点都属于硬盘的不同页面,我们为了中序遍历所有的元素,页面2-页面1-页面3-页面1-页面4-页面1-页面5.而且我们每经过节点遍历时,都会对节点中的元素进行一次遍历,糟糕!有没有可能让遍历时每个元素只访问一次呢?
B+树是应文件系统所需而出的一种B树的变形树,在B树中,每一个元素树中只出现一次,而B+树中,出现在分支节点中的元素会被当做他们在该分支节点位置的中序后继者(叶子节点)中再次列出。另外,每一个叶子节点都会保存一个指向后一叶子节点的指针。
下图就是B+树,灰色关键字,在根节点出现,在叶子节点中再次列出。
B+树适合随机查找,只不过查到后是索引,不能提供实际记录的访问,还需要到达包含此关键字的终端节点。非叶结点仅具有索引作用,跟记录有关的信息均存放在叶结点中。B+树适合带有范围的查找。B+树插入、删除类似B树。
五、关于本章的结构梳理及知识点汇总